Fantastic Pretraining Optimizers and Where to Find Them
2509.02046v1
cs.LG, cs.AI, stat.ML
2025-09-05
Авторы:
Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang
Резюме на русском
#### Контекст
Обучение моделей языковых моделей (LLM) требует сложной оптимизации сложной архитектуры. Наиболее популярным выбранным оптимизатором для этой задачи является AdamW. Тем не менее, несколько работ утверждают, что использование альтернативных оптимизаторов может привести к скорости обучения быстрее в два раза. Это подрывает доверие к AdamW и создает мотивацию для поиска более эффективных решений. Однако существует два фундаментальных недостатка в существующих исследованиях: неодинаковая настройка гиперпараметров и ограниченные сценарии оценки. Эти проблемы мешают сравнивать оптимизаторы всесторонне и приводят к недостоверным выводам. Наша мотивация заключается в создании систематического исследования, выявив эти недостатки и предоставив справедливый оснований для сравнения.
#### Метод
Для сравнения оптимизаторов мы используем систематическую методологию, включающую четыре модели различных размеров (от 0.1 до 1.2 миллиардов параметров) и данных-моделей (от 1 до 8 раз масштаба Chinchilla). Мы проводим тщательную настройку гиперпараметров для каждого оптимизатора, используя параллельные эксперименты для всех моделей. Эксперименты проводятся на одинаковых условиях и останавливаются после достижения целевого объема тренировочных данных. Мы проводим правдивое сравнение скорости обучения и качества, обеспечивая уникальную возможность подтвердить или опровергнуть общепринятые утверждения.
#### Результаты
Наши эксперименты показали, что:
1. Оптимальные гиперпараметры для одного оптимизатора могут быть неэффективными для другого, что делает безусловный переход нечестным.
2. Объявленные скорости обучения альтернативных оптимизаторов значительно преувеличены, и преимущество сокращается до 1.1x для моделей с 1.2 миллиардами параметров.
3. Использование матриц-препредикаторов (где градиенты мультиплицируются матрицами вместо скаляров) демонстрирует ограниченное преимущество, что делает предложенные оптимизаторы лишь немного эффективнее AdamW.
#### Значимость
Наши результаты имеют значение для областей применения глубокого обучения, в том числе моделей языка и других задач машинного обучения. Мы показываем, что некоторые предложенные оптимизаторы не приносят столь значимого выигрыша в скорости, как утверждалось ранее. Это открывает новый потенциал для разработки более точных и эффективных оптимизаторов, отвечающих реальным потребностям моделей широкого масштаба.
#### Выводы
Мы подтвердили, что существующие методологии сравнения оптимизаторов необходимо улучшить, чтобы обеспечить правильное и справедливое сравнение.
Abstract
AdamW has long been the dominant optimizer in language model pretraining,
despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We
posit that two methodological shortcomings have obscured fair comparisons and
hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited
or misleading evaluation setups. To address these two issues, we conduct a
systematic study of ten deep learning optimizers across four model scales
(0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum).
We find that fair and informative comparisons require rigorous hyperparameter
tuning and evaluations across a range of model scales and data-to-model ratios,
performed at the end of training. First, optimal hyperparameters for one
optimizer may be suboptimal for another, making blind hyperparameter transfer
unfair. Second, the actual speedup of many proposed optimizers over well-tuned
baselines is lower than claimed and decreases with model size to only 1.1x for
1.2B parameter models. Thirdly, comparing intermediate checkpoints before
reaching the target training budgets can be misleading, as rankings between two
optimizers can flip during training due to learning rate decay. Through our
thorough investigation, we find that all the fastest optimizers such as Muon
and Soap, use matrices as preconditioners -- multiplying gradients with
matrices rather than entry-wise scalars. However, the speedup of matrix-based
optimizers is inversely proportional to model scale, decreasing from 1.4x over
AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.
Ссылки и действия
Дополнительные ресурсы: