Kourkoutas-Beta: A Sunspike-Driven Adam Optimizer with Desert Flair
2508.12996v1
cs.LG, cs.AI, 65K10, 68T07, I.2.6; G.1.6
2025-08-20
Авторы:
Stavros C. Kassinos
Резюме на русском
## Контекст
Трансформерные нейронные сети применяются всё чаще для решения физических задач, таких как моделирование динамики сложных систем и решение параметрических частных дифференциальных уравнений (PDE). Однако их применение связано с некоторыми проблемами. В задачах с data-driven PDE surrogates, тренировочные данные, полученные от различных условий границ и начальных условий, могут привести к непоследовательности потерь и значительным колебаниям градиентов. В physics-informed neural networks (PINNs), где используются сложные композитные потери, эти проблемы усиливаются. Kourkoutas-Beta предлагается как решение этих проблем, стабилизируя обучение и улучшая общую производительность.
## Метод
Kourkoutas-Beta является развитием стандартного Adam-оптимизатора, существенно улучшая его стабильность в условиях спадающих и пиковых градиентов. Основная инновация заключается в замене фиксированного второго момента beta2 на динамическое значение, которое зависит от ``sunspike''-раATURAТУРА: это отношение актуального полновесного норма градиента к экспоненциальному скользящему среднему этого норма. Значение sunspike-раATURAТУРА жадно сжимается в интервал [0,1), что даёт динамическое регулирование beta2. Дополнительно предлагаются варианты, такие как leaky-AMSGrad для улучшения декремента, clipping для зон ограничения, и множество режимов bias-correction. В тоже время, при выключении всех дополнительных опций и установке bias_correction=``none'', метод равноценен классическому Adam.
## Результаты
Выполнены эксперименты на четырёх различных наборах данных: (i) Heat2D — задача моделирования теплового вывода с использованием Transformer, (ii) Heat3D — трёхмерная задача PINN для моделирования теплопроводности, (iii) MLX synthetic task — задача с шумом и редкими градиентными всплесками, и (iv) small-enwik8 — задача на уровне символов с 30 МБ данных. Результаты показали, что Kourkoutas-Beta показывает значительно более высокую стабильность и лучшие результаты по потерям во всех задачах по сравнению с фиксированным beta2. На small-enwik8 он уменьшил bits-per-character в среднем на 38% по сравнению с Adam-0.95 и на 58% по сравнению с Adam-0.999, с меньшей дисперсией. Общая производительность остается близкой к Adam, с незначительным overhead.
## Значимость
Kourkoutas-Beta может быть применён во многих областях, где используются трансформеры для решения физических задач, включая моделирование теплопроводности, системы управления и другие data-driven надёжные решения. Он обеспечивает улучшенную стабильность и снижает вероятность спада градиентов, что делает его привлекательным для задач с нетипичными условиями границ и редкими ситуациями входных данных. Этот оптимизатор может быть легко
Abstract
Transformer neural networks are increasingly used for physics-based problems.
In data-driven PDE surrogates, training samples from varying boundary and
initial conditions can cause erratic losses and spiky gradients; in
physics-informed neural networks (PINNs), stiff composite losses amplify this
effect.
We introduce Kourkoutas-Beta, an Adam-style optimizer where the fixed
second-moment discount beta2 is replaced by a layer-wise dynamic value driven
by a bounded ``sunspike'' ratio: the current pooled gradient norm divided by an
exponential moving average (EMA) of past norms, squashed to the interval [0,1).
Spikes lower beta2 toward beta2_min; calm phases keep it near beta2_max.
Options include leaky-AMSGrad (decay), trust-region clipping (max_ratio),
adaptive tiny terms, and several bias-correction modes ``none'', ``beta2max'',
``exact'). With all features off and bias_correction=``none'', the method is
exactly Adam.
We test on four settings: (i) a Transformer PDE surrogate (Heat2D), (ii) a 3D
PINN for heat conduction (Heat3D), (iii) a lightweight MLX synthetic task with
jitter and rare-trigger bursts, and (iv) a character-level Transformer on 30 MB
of enwik8 (small-enwik8). Kourkoutas-Beta improves stability and final loss
versus fixed-beta2 Adam. On small-enwik8 it lowers bits-per-character by about
38% vs Adam-0.95 and about 58% vs Adam-0.999 over 10 seeds, with smaller
variance. The method remains drop-in, with runtime overhead comparable to Adam
in testbeds A-C and within single-digit percent in testbed D. It preserves
Adam-style convergence guarantees while improving robustness under spiky
gradients.