📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Stavros C. Kassinos

## Контекст Трансформерные нейронные сети (Transformer neural networks, TNT) в последние годы нашли широкое применение в задачах, связанных с физическими проблемами, особенно в ситуациях, когда требуется строить суррогатные модели для физических уравнений (PDE surrogates). Эти задачи часто имеют сложные условия границы и начала, что приводит к эксплуатации потенциальных проблем, таких как перепучивание градиентов и нестабильность потерь. В случае физико-информированных нейронных сетей (PINNs), проблема усиливается из-за сложности сложных сложных потерь, которые могут вызывать значительные колебания в процессе обучения. Из-за этого существует необходимость в разработке оптимизаторов, которые могут ликвидировать эти проблемы, сохранив при этом гибкость и эффективность стандартных методов. ## Метод Мы предлагаем Kourkoutas-Beta, новый оптимизатор стиля Adam, где значение стабилизирующего параметра `beta2` заменено динамическим значением, которое определяется в зависимости от того, насколько большой текущий градиент в отношении среднего значения за предыдущий период. Этот показатель, который мы называем "sunspike" (солнечный всплеск), дает возможность понизить `beta2` при повышенной активности в градиентах (spikes) и увеличить его при спокойных фазах. Оптимизатор также включает в себя несколько дополнительных режимов: (i) декрейсная регуляризация (leaky AMSGrad), (ii) максимальное отклонение (trust-region clipping), (iii) адаптивные малые термины, и (iv) несколько вариантов коррекции биаса (none, beta2max, exact). Это позволяет Kourkoutas-Beta полностью совместимым с Adam, при этом предоставляя улучшенную стабильность и уменьшенную волатильность. ## Результаты Мы проверили Kourkoutas-Beta на четырёх разных тестовых сценариях: (i) случай Transformer PDE-суррогата (Heat2D), (ii) 3D PINN для моделирования теплового распространения (Heat3D), (iii) синтетическая задача MLX, где шум и редкие спады градиентов являются значимыми, и (iv) задачу трансформера на уровне символов для обработки текста enwik8 (small-enwik8). Во всех этих случаях Kourkoutas-Beta показал значительные выигрыши в стабильности и получении меньшего значения функции потерь по сравнению с фиксированным `beta2` Adam. Например, на small-enwik8 Kourkoutas-Beta снизил bits-per-character (биты на символ) примерно на 38% по сравнению с Adam с `beta2=0.95` и 58% по сравнению с Adam с `beta2=0.999`, уменьшив также дисперсию результатов при 10 семенах. ## Значимость Kourkoutas-Beta может быть применен в широком круге задач, включая обучение с учителем для TNT в физико-информированных моделях, а также в задачах с нестабильными градиентами и высоким количеством дан
Annotation:
Transformer neural networks are increasingly used for physics-based problems. In data-driven PDE surrogates, training samples from varying boundary and initial conditions can cause erratic losses and spiky gradients; in physics-informed neural networks (PINNs), stiff composite losses amplify this effect. We introduce Kourkoutas-Beta, an Adam-style optimizer where the fixed second-moment discount beta2 is replaced by a layer-wise dynamic value driven by a bounded ``sunspike'' ratio: the current...
ID: 2508.12996v2 cs.LG, cs.AI, 65K10, 68T07, I.2.6; G.1.6
Авторы:

Stavros C. Kassinos

## Контекст Трансформерные нейронные сети применяются всё чаще для решения физических задач, таких как моделирование динамики сложных систем и решение параметрических частных дифференциальных уравнений (PDE). Однако их применение связано с некоторыми проблемами. В задачах с data-driven PDE surrogates, тренировочные данные, полученные от различных условий границ и начальных условий, могут привести к непоследовательности потерь и значительным колебаниям градиентов. В physics-informed neural networks (PINNs), где используются сложные композитные потери, эти проблемы усиливаются. Kourkoutas-Beta предлагается как решение этих проблем, стабилизируя обучение и улучшая общую производительность. ## Метод Kourkoutas-Beta является развитием стандартного Adam-оптимизатора, существенно улучшая его стабильность в условиях спадающих и пиковых градиентов. Основная инновация заключается в замене фиксированного второго момента beta2 на динамическое значение, которое зависит от ``sunspike''-раATURAТУРА: это отношение актуального полновесного норма градиента к экспоненциальному скользящему среднему этого норма. Значение sunspike-раATURAТУРА жадно сжимается в интервал [0,1), что даёт динамическое регулирование beta2. Дополнительно предлагаются варианты, такие как leaky-AMSGrad для улучшения декремента, clipping для зон ограничения, и множество режимов bias-correction. В тоже время, при выключении всех дополнительных опций и установке bias_correction=``none'', метод равноценен классическому Adam. ## Результаты Выполнены эксперименты на четырёх различных наборах данных: (i) Heat2D — задача моделирования теплового вывода с использованием Transformer, (ii) Heat3D — трёхмерная задача PINN для моделирования теплопроводности, (iii) MLX synthetic task — задача с шумом и редкими градиентными всплесками, и (iv) small-enwik8 — задача на уровне символов с 30 МБ данных. Результаты показали, что Kourkoutas-Beta показывает значительно более высокую стабильность и лучшие результаты по потерям во всех задачах по сравнению с фиксированным beta2. На small-enwik8 он уменьшил bits-per-character в среднем на 38% по сравнению с Adam-0.95 и на 58% по сравнению с Adam-0.999, с меньшей дисперсией. Общая производительность остается близкой к Adam, с незначительным overhead. ## Значимость Kourkoutas-Beta может быть применён во многих областях, где используются трансформеры для решения физических задач, включая моделирование теплопроводности, системы управления и другие data-driven надёжные решения. Он обеспечивает улучшенную стабильность и снижает вероятность спада градиентов, что делает его привлекательным для задач с нетипичными условиями границ и редкими ситуациями входных данных. Этот оптимизатор может быть легко
Annotation:
Transformer neural networks are increasingly used for physics-based problems. In data-driven PDE surrogates, training samples from varying boundary and initial conditions can cause erratic losses and spiky gradients; in physics-informed neural networks (PINNs), stiff composite losses amplify this effect. We introduce Kourkoutas-Beta, an Adam-style optimizer where the fixed second-moment discount beta2 is replaced by a layer-wise dynamic value driven by a bounded ``sunspike'' ratio: the current...
ID: 2508.12996v1 cs.LG, cs.AI, 65K10, 68T07, I.2.6; G.1.6