📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Chuan He, Zhanwang Deng, Zhaosong Lu

## Контекст Neural networks (NN) являются одним из наиболее успешных инструментов в машинном обучении, основываясь на матричных вычислениях для обработки данных. Однако традиционные подходы к обучению нейронных сетей часто игнорируют структуру матриц, которая важна для эффективного обучения. Недавно, оптимизатор Muon \cite{jordanmuon} получил большое внимание благодаря своей успешной реализации в обучении фундаментальных моделей (foundation models). На основе матричной orthogonalization, Muon эффективно обрабатывает большие матрицы, характерные для NN-параметров. Несмотря на это, существуют технические вызовы, связанные с масштабированием и точностью. Мы предлагаем расширить этот подход, используя **low-rank orthogonalization**, которая учитывает низкоранговый характер градиентов во время обучения. ## Метод Мы предлагаем **low-rank orthogonalization**, которая использует структуру градиентов, характеризующуюся низким рангом. Базируясь на этой идеи, мы предлагаем два алгоритма: **low-rank matrix-signed gradient descent** и **low-rank Muon**. Мы используем методы низкоранговых матричных операций, чтобы улучшить эффективность и точность обучения. Наша методология включает: 1. Извлечение низкоранговой структуры градиентов. 2. Использование матричной orthogonalization для эффективного обновления параметров. 3. Эмпирические эксперименты, подтверждающие эффективность новых подходов. ## Результаты Мы провели обширные эксперименты на GPT-2 и LLaMA, сравнивая новые подходы с традиционными. Низкоранговый Muon (low-rank Muon) показал значительные улучшения в скорости и точности обучения по сравнению с оригинальным Muon. Например, в предварительной обработке (pretraining) LLaMA, low-rank Muon демонстрирует более быструю сходимость и высокую точность. Эти результаты подтверждаются теоретически, демонстрируя низкую эксплицитную сложность для нахождения примерного стационарного решения при использовании low-rank matrix-signed gradient descent. ## Значимость Наши результаты открывают новые перспективы в обучении больших моделей, особенно для foundation models. Низкоранговые подходы эффективно уменьшают вычислительные затраты, снижают использование памяти и повышают производительность. Они могут быть применены не только в обучении моделей, но и в других задачах, требующих обработки крупных матриц. Этот подход имеет потенциал для улучшения отраслей, таких как NLP, computer vision и даже биоинформатика. ## Выводы Мы установили значительные достижения в низкоранговой orthogonalization для обучения нейронных сетей. Наши новые подходы, включая low-rank matrix-signed gradient descent и low-rank Muon, демонстрируют существенные улучшения в эффективности и точности
Annotation:
Neural network (NN) training is inherently a large-scale matrix optimization problem, yet the matrix structure of NN parameters has long been overlooked. Recently, the optimizer Muon \cite{jordanmuon}, which explicitly exploits this structure, has gained significant attention for its strong performance in foundation model training. A key component contributing to Muon's success is matrix orthogonalization. In this paper, we propose {\it low-rank orthogonalization}, which explicitly leverages the...
ID: 2509.11983v1 cs.LG, math.OC, 49M37, 90C30, 90C90