AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates
2509.02981v1
cs.LG, math.OC
2025-09-05
Авторы:
Minxin Zhang, Yuxuan Liu, Hayden Schaeffer
Резюме на русском
#### Контекст
В последние годы искусственные нейронные сети (ANN) стали важной компонентой систем машинного обучения. Одним из ключевых аспектов обучения ANN является эффективность алгоритмов оптимизации, которые используются для обучения моделей. Одним из таких алгоритмов является Muon, который использует ортогональное обновление весов. Этот подход показал свою эффективность в обучении больших языковых моделей. Однако, одной из проблем при использовании Muon является необходимость определить подходящий темп обучения (learning rate). Напротив, широко используемый метод AdaGrad адаптирует темпы обучения на основе истории градиентов, что позволяет лучше скорректироваться в зависимости от локальных характеристик оптимизационного пространства. Этот разрыв мотивирует развитие новых методов, которые объединяли бы преимущества оба подхода.
#### Метод
Мы предлагаем метод AdaGO (AdaGrad Meets Muon), который сочетает принципы AdaGrad и Muon. Основная идея заключается в том, чтобы применять нормально ориентированную адаптивную степень обучения AdaGrad для ортогональных обновлений весов. Напротив, при использовании Muon, темпы обучения не подстраиваются под локальные особенности оптимизационного пространства. AdaGO сохраняет ортогональность обновлений, что дает возможность интерпретировать этот подход как спектральный спуск, при этом степени обучения адаптируются к характеристикам оптимизации. Алгоритм требует минимальных изменений в Muon, добавляя только одну дополнительную переменную для накопления квадратов градиентов. Это делает AdaGO выгодным как с точки зрения вычислительной сложности, так и с точки зрения использования памяти.
#### Результаты
Мы провели эксперименты на двух задачах: классификации изображений на датасете CIFAR-10 и регрессии функций. Мы сравнили AdaGO с Muon и Adam, широко используемым методом оптимизации. Наши результаты показали, что AdaGO показывает лучшие результаты, как в случае статической, так и динамической адаптации темпов обучения. Анализ локальных минимумов показал, что AdaGO предлагает более гладкую адаптацию к локальным особенностям задачи, позволяя более эффективно снизить функцию потерь.
#### Значимость
Мы видим применение AdaGO в многочисленных областях, где эффективность обучения является ключевой проблемой, таких как обучение больших моделей языкового моделирования, обработка естественного языка и изображений. Метод AdaGO предоставляет значительные преимущества в скорости обучения и качестве решения задач. Благодаря своей небольшой дополнительной сложности, AdaGO может легко внедряться в существующие системы оптимизации.
#### Выво
Abstract
The recently proposed Muon optimizer updates weight matrices via
orthogonalized momentum and has demonstrated strong empirical success in large
language model training. However, it remains unclear how to determine the
learning rates for such orthogonalized updates. AdaGrad, by contrast, is a
widely used adaptive method that scales stochastic gradients by accumulated
past gradients. We propose a new algorithm, AdaGO, which combines a norm-based
AdaGrad-type stepsize with an orthogonalized update direction, bringing
together the benefits of both approaches. Unlike other adaptive variants of
Muon, AdaGO preserves the orthogonality of the update direction, which can be
interpreted as a spectral descent direction, while adapting the stepsizes to
the optimization landscape by scaling the direction with accumulated past
gradient norms. The implementation of AdaGO requires only minimal modification
to Muon, with a single additional scalar variable, the accumulated squared
gradient norms, to be computed, making it computationally and memory efficient.
Optimal theoretical convergence rates are established for nonconvex functions
in both stochastic and deterministic settings under standard smoothness and
unbiased bounded-variance noise assumptions. Empirical results on CIFAR-10
classification and function regression demonstrate that AdaGO outperforms Muon
and Adam.
Ссылки и действия
Дополнительные ресурсы: