📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Chuan He, Zhanwang Deng, Zhaosong Lu
## Контекст
Neural networks (NN) являются одним из наиболее успешных инструментов в машинном обучении, основываясь на матричных вычислениях для обработки данных. Однако традиционные подходы к обучению нейронных сетей часто игнорируют структуру матриц, которая важна для эффективного обучения. Недавно, оптимизатор Muon \cite{jordanmuon} получил большое внимание благодаря своей успешной реализации в обучении фундаментальных моделей (foundation models). На основе матричной orthogonalization, Muon эффективно обрабатывает большие матрицы, характерные для NN-параметров. Несмотря на это, существуют технические вызовы, связанные с масштабированием и точностью. Мы предлагаем расширить этот подход, используя **low-rank orthogonalization**, которая учитывает низкоранговый характер градиентов во время обучения.
## Метод
Мы предлагаем **low-rank orthogonalization**, которая использует структуру градиентов, характеризующуюся низким рангом. Базируясь на этой идеи, мы предлагаем два алгоритма: **low-rank matrix-signed gradient descent** и **low-rank Muon**. Мы используем методы низкоранговых матричных операций, чтобы улучшить эффективность и точность обучения. Наша методология включает:
1. Извлечение низкоранговой структуры градиентов.
2. Использование матричной orthogonalization для эффективного обновления параметров.
3. Эмпирические эксперименты, подтверждающие эффективность новых подходов.
## Результаты
Мы провели обширные эксперименты на GPT-2 и LLaMA, сравнивая новые подходы с традиционными. Низкоранговый Muon (low-rank Muon) показал значительные улучшения в скорости и точности обучения по сравнению с оригинальным Muon. Например, в предварительной обработке (pretraining) LLaMA, low-rank Muon демонстрирует более быструю сходимость и высокую точность. Эти результаты подтверждаются теоретически, демонстрируя низкую эксплицитную сложность для нахождения примерного стационарного решения при использовании low-rank matrix-signed gradient descent.
## Значимость
Наши результаты открывают новые перспективы в обучении больших моделей, особенно для foundation models. Низкоранговые подходы эффективно уменьшают вычислительные затраты, снижают использование памяти и повышают производительность. Они могут быть применены не только в обучении моделей, но и в других задачах, требующих обработки крупных матриц. Этот подход имеет потенциал для улучшения отраслей, таких как NLP, computer vision и даже биоинформатика.
## Выводы
Мы установили значительные достижения в низкоранговой orthogonalization для обучения нейронных сетей. Наши новые подходы, включая low-rank matrix-signed gradient descent и low-rank Muon, демонстрируют существенные улучшения в эффективности и точности
Annotation:
Neural network (NN) training is inherently a large-scale matrix optimization
problem, yet the matrix structure of NN parameters has long been overlooked.
Recently, the optimizer Muon \cite{jordanmuon}, which explicitly exploits this
structure, has gained significant attention for its strong performance in
foundation model training. A key component contributing to Muon's success is
matrix orthogonalization. In this paper, we propose {\it low-rank
orthogonalization}, which explicitly leverages the...