MERIT: Maximum-normalized Element-wise Ratio for Language Model Large-batch Training

2508.20577v1 cs.LG, cs.AI, cs.CL 2025-08-29
Авторы:

Yang Luo, Zangwei Zheng, Ziheng Qin, Zirui Zhu, Yong Liu, Yang You

Резюме на русском

#### Контекст Повышение эффективности обучения глубоких нейронных сетей с помощью больших пакетов данных (large-batch training) является ключевым подходом для ускорения процесса обучения. Однако этот подход сопряжен с оптимизационными и затруднениями в общей Flexibility сетей. Особенно это чувствительно для моделей языка (language models), где увеличение размера пакета данных приводит к проблемам в оптимизации, в частности, к появлению "информационного бутапка" в слоях аттенции (attention layers). Это происходит из-за роста максимального значения аттенционного веса (max attention logit), который нарушает нормальное распределение весов. Традиционные методы, такие как LAMB, не полностью успешны в решении этой проблемы, так как их нормы $l_2$-based не всегда эффективны в контроле максимальных значений в аттенциях. #### Метод Мы предлагаем MERIT (Maximum-normalized Element-wise Ratio for Language Model Large-batch Training) — новую методологию для оптимизации больших пакетов в языковых моделях. MERIT использует максимальное значение (max-norm) для вычисления масштабирования (trust ratio), что позволяет более эффективно контролировать максимальные значения в аттенциях. Для дополнительного улучшения, мы вводим элемент-wise trust ratios, которые учитывают локальные структуры весов внутри каждой строки и столбца. Это позволяет лучше оптимизировать градиенты и сохранить стабильность обучения. #### Результаты Мы провести ряд экспериментов с GPT-2 моделями разных размеров (Small, Medium, Large). Наиболее заметным результатом была проверка на GPT-2 Medium, где MERIT позволил использовать большие пакеты данных (batch size 6k) без каких-либо потерь в качестве обучения, что соответствует использованию batch size 480 при обучении на 48B токенов. Это демонстрирует улучшение стабильности и эффективности обучения в сравнении с LAMB и AdamW. #### Значимость MERIT имеет широкие применения в области обучения языковых моделей, особенно при использовании больших пакетов данных. Он позволяет увеличить скорость обучения без потери качества и повысить удобство итерации при разработке моделей. Его преимущества включают улучшенную стабильность, эффективность и гибкость в тренировке моделей, что делает его ключевым инструментом для современного NLP. #### Выводы Мы представили MERIT — новую методологию для больших пакетов в языковых моделях, которая решает проблему максимальных аттенционных весов. Его успех указывает на важность учета max attention logit в оптимизации и открывает новые возможности для более быстрой и качественной разработки больших языковых моделей. Будущие исследования будут ориентированы на расширение MERIT для других типов нейронных сетей и его применение в сложных задачах NLP.

Abstract

Large-batch training has become a cornerstone in accelerating the training of deep neural networks, yet it poses challenges in optimization and generalization. Existing optimizers like AdamW present performance degradation during language models' large-batch training, due to the information bottleneck in attention layers caused by the sharp increase of max attention logit. While the LAMB optimizer partially addresses this issue, some attention layers still face this issue. The reason is that $l_2$-norm-based trust ratios in LAMB are less effective in directly influencing the max value of query/key weights. Furthermore, the weight-wise trust ratio in LAMB is error-prone as it overlooks relationships of weight values within rows or columns. Building on these observations, we propose a novel optimizer, MERIT, which leverages the max-norm to calculate the trust ratio to constrain the max attention logit more effectively. Moreover, we further construct element-wise trust ratios to provide more robust update scaling by focusing on local weight structures. Extensive experiments of large-batch training across various sizes of GPT-2 models demonstrate the superior performance of MERIT. Notably, during the training of GPT-2 Medium, MERIT enables a 6k batch size without any performance degradation compared to the standard batch size (480) with 48B training tokens. This work highlights the importance of considering the max attention logit and finer-granularity trust ratio in large-batch training. It successfully improves the training stability and paves the way for larger batch usage, enabling faster development and iteration of large language models. Code is available at https://github.com/NUS-HPC-AI-Lab/MERIT.

Ссылки и действия