LiMuon: Light and Fast Muon Optimizer for Large Models

2509.14562v1 cs.LG, math.OC 2025-09-20

Авторы:

Feihu Huang, Yuning Luo, Songcan Chen

Резюме на русском

Название статьи: LiMuon: Light and Fast Muon Optimizer for Large Models ## Контекст Область исследования связана с эффективным обучением крупных моделей в искусственном интеллекте. Тренировка таких моделей требует больших вычислительных ресурсов и времени, что становится ключевым заданием в становящемся популярным подходе моделей матричной структуры. Несмотря на развитие оптимизаторов, таких как Muon, которые ориентированы на матричные параметры, существуют проблемы, такие как высокая стоимость выбора и необходимость большого объема памяти. Эти проблемы становятся особенно актуальными при обучении моделей типа GPT или ViT. Мы предлагаем LiMuon — усовершенствованную версию Muon, которая уменьшает объем памяти и ускоряет процесс обучения. ## Метод LiMuon основывается на методе моментум и рандомизированной технике разложения Singular Value Decomposition (SVD). Мы разработали уникальный подход, который уменьшает объем памяти и оптимизирует вычисления. Архитектура LiMuon включает уменьшенные аппроксимации SVD, которые эффективно обрабатывают матричные параметры больших моделей. Также мы применяем моментум для сохранения накопленной информации в процессе обучения, что улучшает сходимость и работу оптимизатора. ## Результаты Мы проверили эффективность LiMuon на моделях DistilGPT2 и ViT. Результаты превосходства показывают, что LiMuon потребляет меньше памяти и работает быстрее, чем Muon. Наши эксперименты доказывают, что LiMuon достигает эквивалентной точности с меньшим вычислительным временем и требуемым объемом памяти. Для подтверждения квантитативной эффективности, мы проверили LiMuon на разных уровнях сложности моделей, показав, что он получает $\epsilon$-стационарное решение за $O(\epsilon^{-3})$, даже при условии нестрогого smoothness. ## Значимость LiMuon может использоваться для обучения различных крупных моделей в искусственном интеллекте, включая модели типа GPT или ViT. Он предлагает более эффективное решение для обучения, особенно в случаях, когда высокая стоимость выбора или большие объемы памяти являются критичными. Это делает LiMuon привлекательным для применения в реальных сетевых моделях, таких как боLTS и LLMs. ## Выводы Мы представили LiMuon — новую версию Muon, которая сокращает объем памяти и улучшает производительность при обучении больших моделей. Доказаны теоретические гарантии сходимости, даже при нестрогом условии smoothness. Будущие исследования будут ориентированы на расширение LiMuon для других задач, таких как глубокое обучение, и исследовании его применения в сложных сетевых моделях.

Abstract

Large models recently are widely applied in artificial intelligence, so efficient training of large models has received widespread attention. More recently, a useful Muon optimizer is specifically designed for matrix-structured parameters of large models. Although some works have begun to studying Muon optimizer, the existing Muon and its variants still suffer from high sample complexity or high memory for large models. To fill this gap, we propose a light and fast Muon (LiMuon) optimizer for training large models, which builds on the momentum-based variance reduced technique and randomized Singular Value Decomposition (SVD). Our LiMuon optimizer has a lower memory than the current Muon and its variants. Moreover, we prove that our LiMuon has a lower sample complexity of $O(\epsilon^{-3})$ for finding an $\epsilon$-stationary solution of non-convex stochastic optimization under the smooth condition. Recently, the existing convergence analysis of Muon optimizer mainly relies on the strict Lipschitz smooth assumption, while some artificial intelligence tasks such as training large language models (LLMs) do not satisfy this condition. We also proved that our LiMuon optimizer has a sample complexity of $O(\epsilon^{-3})$ under the generalized smooth condition. Numerical experimental results on training DistilGPT2 and ViT models verify efficiency of our LiMuon optimizer.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LiMuon: Light and Fast Muon Optimizer for Large Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Convergence for Discrete Parameter Updates

The Geometry of Intelligence: Deterministic Functional Topology as a Foundation ...

Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method

Risk-Sensitive Q-Learning in Continuous Time with Application to Dynamic Portfol...

ARM-Explainer -- Explaining and improving graph neural network predictions for t...

Навигация