MERIT: Maximum-normalized Element-wise Ratio for Language Model Large-batch Training
2508.20577v1
cs.LG, cs.AI, cs.CL
2025-08-29
Авторы:
Yang Luo, Zangwei Zheng, Ziheng Qin, Zirui Zhu, Yong Liu, Yang You
Резюме на русском
#### Контекст
Повышение эффективности обучения глубоких нейронных сетей с помощью больших пакетов данных (large-batch training) является ключевым подходом для ускорения процесса обучения. Однако этот подход сопряжен с оптимизационными и затруднениями в общей Flexibility сетей. Особенно это чувствительно для моделей языка (language models), где увеличение размера пакета данных приводит к проблемам в оптимизации, в частности, к появлению "информационного бутапка" в слоях аттенции (attention layers). Это происходит из-за роста максимального значения аттенционного веса (max attention logit), который нарушает нормальное распределение весов. Традиционные методы, такие как LAMB, не полностью успешны в решении этой проблемы, так как их нормы $l_2$-based не всегда эффективны в контроле максимальных значений в аттенциях.
#### Метод
Мы предлагаем MERIT (Maximum-normalized Element-wise Ratio for Language Model Large-batch Training) — новую методологию для оптимизации больших пакетов в языковых моделях. MERIT использует максимальное значение (max-norm) для вычисления масштабирования (trust ratio), что позволяет более эффективно контролировать максимальные значения в аттенциях. Для дополнительного улучшения, мы вводим элемент-wise trust ratios, которые учитывают локальные структуры весов внутри каждой строки и столбца. Это позволяет лучше оптимизировать градиенты и сохранить стабильность обучения.
#### Результаты
Мы провести ряд экспериментов с GPT-2 моделями разных размеров (Small, Medium, Large). Наиболее заметным результатом была проверка на GPT-2 Medium, где MERIT позволил использовать большие пакеты данных (batch size 6k) без каких-либо потерь в качестве обучения, что соответствует использованию batch size 480 при обучении на 48B токенов. Это демонстрирует улучшение стабильности и эффективности обучения в сравнении с LAMB и AdamW.
#### Значимость
MERIT имеет широкие применения в области обучения языковых моделей, особенно при использовании больших пакетов данных. Он позволяет увеличить скорость обучения без потери качества и повысить удобство итерации при разработке моделей. Его преимущества включают улучшенную стабильность, эффективность и гибкость в тренировке моделей, что делает его ключевым инструментом для современного NLP.
#### Выводы
Мы представили MERIT — новую методологию для больших пакетов в языковых моделях, которая решает проблему максимальных аттенционных весов. Его успех указывает на важность учета max attention logit в оптимизации и открывает новые возможности для более быстрой и качественной разработки больших языковых моделей. Будущие исследования будут ориентированы на расширение MERIT для других типов нейронных сетей и его применение в сложных задачах NLP.
Abstract
Large-batch training has become a cornerstone in accelerating the training of
deep neural networks, yet it poses challenges in optimization and
generalization. Existing optimizers like AdamW present performance degradation
during language models' large-batch training, due to the information bottleneck
in attention layers caused by the sharp increase of max attention logit. While
the LAMB optimizer partially addresses this issue, some attention layers still
face this issue. The reason is that $l_2$-norm-based trust ratios in LAMB are
less effective in directly influencing the max value of query/key weights.
Furthermore, the weight-wise trust ratio in LAMB is error-prone as it overlooks
relationships of weight values within rows or columns. Building on these
observations, we propose a novel optimizer, MERIT, which leverages the max-norm
to calculate the trust ratio to constrain the max attention logit more
effectively. Moreover, we further construct element-wise trust ratios to
provide more robust update scaling by focusing on local weight structures.
Extensive experiments of large-batch training across various sizes of GPT-2
models demonstrate the superior performance of MERIT. Notably, during the
training of GPT-2 Medium, MERIT enables a 6k batch size without any performance
degradation compared to the standard batch size (480) with 48B training tokens.
This work highlights the importance of considering the max attention logit and
finer-granularity trust ratio in large-batch training. It successfully improves
the training stability and paves the way for larger batch usage, enabling
faster development and iteration of large language models. Code is available at
https://github.com/NUS-HPC-AI-Lab/MERIT.
Ссылки и действия
Дополнительные ресурсы: