Kourkoutas-Beta: A Sunspike-Driven Adam Optimizer with Desert Flair
2508.12996v2
cs.LG, cs.AI, 65K10, 68T07, I.2.6; G.1.6
2025-08-22
Авторы:
Stavros C. Kassinos
Резюме на русском
## Контекст
Трансформерные нейронные сети (Transformer neural networks, TNT) в последние годы нашли широкое применение в задачах, связанных с физическими проблемами, особенно в ситуациях, когда требуется строить суррогатные модели для физических уравнений (PDE surrogates). Эти задачи часто имеют сложные условия границы и начала, что приводит к эксплуатации потенциальных проблем, таких как перепучивание градиентов и нестабильность потерь. В случае физико-информированных нейронных сетей (PINNs), проблема усиливается из-за сложности сложных сложных потерь, которые могут вызывать значительные колебания в процессе обучения. Из-за этого существует необходимость в разработке оптимизаторов, которые могут ликвидировать эти проблемы, сохранив при этом гибкость и эффективность стандартных методов.
## Метод
Мы предлагаем Kourkoutas-Beta, новый оптимизатор стиля Adam, где значение стабилизирующего параметра `beta2` заменено динамическим значением, которое определяется в зависимости от того, насколько большой текущий градиент в отношении среднего значения за предыдущий период. Этот показатель, который мы называем "sunspike" (солнечный всплеск), дает возможность понизить `beta2` при повышенной активности в градиентах (spikes) и увеличить его при спокойных фазах. Оптимизатор также включает в себя несколько дополнительных режимов: (i) декрейсная регуляризация (leaky AMSGrad), (ii) максимальное отклонение (trust-region clipping), (iii) адаптивные малые термины, и (iv) несколько вариантов коррекции биаса (none, beta2max, exact). Это позволяет Kourkoutas-Beta полностью совместимым с Adam, при этом предоставляя улучшенную стабильность и уменьшенную волатильность.
## Результаты
Мы проверили Kourkoutas-Beta на четырёх разных тестовых сценариях: (i) случай Transformer PDE-суррогата (Heat2D), (ii) 3D PINN для моделирования теплового распространения (Heat3D), (iii) синтетическая задача MLX, где шум и редкие спады градиентов являются значимыми, и (iv) задачу трансформера на уровне символов для обработки текста enwik8 (small-enwik8). Во всех этих случаях Kourkoutas-Beta показал значительные выигрыши в стабильности и получении меньшего значения функции потерь по сравнению с фиксированным `beta2` Adam. Например, на small-enwik8 Kourkoutas-Beta снизил bits-per-character (биты на символ) примерно на 38% по сравнению с Adam с `beta2=0.95` и 58% по сравнению с Adam с `beta2=0.999`, уменьшив также дисперсию результатов при 10 семенах.
## Значимость
Kourkoutas-Beta может быть применен в широком круге задач, включая обучение с учителем для TNT в физико-информированных моделях, а также в задачах с нестабильными градиентами и высоким количеством дан
Abstract
Transformer neural networks are increasingly used for physics-based problems.
In data-driven PDE surrogates, training samples from varying boundary and
initial conditions can cause erratic losses and spiky gradients; in
physics-informed neural networks (PINNs), stiff composite losses amplify this
effect.
We introduce Kourkoutas-Beta, an Adam-style optimizer where the fixed
second-moment discount beta2 is replaced by a layer-wise dynamic value driven
by a bounded ``sunspike'' ratio: the current pooled gradient norm divided by an
exponential moving average (EMA) of past norms, squashed to the interval [0,1).
Spikes lower beta2 toward beta2_min; calm phases keep it near beta2_max.
Options include leaky-AMSGrad (decay), trust-region clipping (max_ratio),
adaptive tiny terms, and several bias-correction modes ``none'', ``beta2max'',
``exact'). With all features off and bias_correction=``none'', the method is
exactly Adam.
We test on four settings: (i) a Transformer PDE surrogate (Heat2D), (ii) a 3D
PINN for heat conduction (Heat3D), (iii) a lightweight MLX synthetic task with
jitter and rare-trigger bursts, and (iv) a character-level Transformer on 30 MB
of enwik8 (small-enwik8). Kourkoutas-Beta improves stability and final loss
versus fixed-beta2 Adam. On small-enwik8 it lowers bits-per-character by about
38% vs Adam-0.95 and about 58% vs Adam-0.999 over 10 seeds, with smaller
variance. The method remains drop-in, with runtime overhead comparable to Adam
in testbeds A-C and within single-digit percent in testbed D. It preserves
Adam-style convergence guarantees while improving robustness under spiky
gradients.