Fantastic Pretraining Optimizers and Where to Find Them

2509.02046v1 cs.LG, cs.AI, stat.ML 2025-09-05

Авторы:

Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang

Резюме на русском

#### Контекст Обучение моделей языковых моделей (LLM) требует сложной оптимизации сложной архитектуры. Наиболее популярным выбранным оптимизатором для этой задачи является AdamW. Тем не менее, несколько работ утверждают, что использование альтернативных оптимизаторов может привести к скорости обучения быстрее в два раза. Это подрывает доверие к AdamW и создает мотивацию для поиска более эффективных решений. Однако существует два фундаментальных недостатка в существующих исследованиях: неодинаковая настройка гиперпараметров и ограниченные сценарии оценки. Эти проблемы мешают сравнивать оптимизаторы всесторонне и приводят к недостоверным выводам. Наша мотивация заключается в создании систематического исследования, выявив эти недостатки и предоставив справедливый оснований для сравнения. #### Метод Для сравнения оптимизаторов мы используем систематическую методологию, включающую четыре модели различных размеров (от 0.1 до 1.2 миллиардов параметров) и данных-моделей (от 1 до 8 раз масштаба Chinchilla). Мы проводим тщательную настройку гиперпараметров для каждого оптимизатора, используя параллельные эксперименты для всех моделей. Эксперименты проводятся на одинаковых условиях и останавливаются после достижения целевого объема тренировочных данных. Мы проводим правдивое сравнение скорости обучения и качества, обеспечивая уникальную возможность подтвердить или опровергнуть общепринятые утверждения. #### Результаты Наши эксперименты показали, что: 1. Оптимальные гиперпараметры для одного оптимизатора могут быть неэффективными для другого, что делает безусловный переход нечестным. 2. Объявленные скорости обучения альтернативных оптимизаторов значительно преувеличены, и преимущество сокращается до 1.1x для моделей с 1.2 миллиардами параметров. 3. Использование матриц-препредикаторов (где градиенты мультиплицируются матрицами вместо скаляров) демонстрирует ограниченное преимущество, что делает предложенные оптимизаторы лишь немного эффективнее AdamW. #### Значимость Наши результаты имеют значение для областей применения глубокого обучения, в том числе моделей языка и других задач машинного обучения. Мы показываем, что некоторые предложенные оптимизаторы не приносят столь значимого выигрыша в скорости, как утверждалось ранее. Это открывает новый потенциал для разработки более точных и эффективных оптимизаторов, отвечающих реальным потребностям моделей широкого масштаба. #### Выводы Мы подтвердили, что существующие методологии сравнения оптимизаторов необходимо улучшить, чтобы обеспечить правильное и справедливое сравнение.

Abstract

AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fantastic Pretraining Optimizers and Where to Find Them

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Single-Round Scalable Analytic Federated Learning

Does Flatness imply Generalization for Logistic Loss in Univariate Two-Layer ReL...

Multi-view diffusion geometry using intertwined diffusion trajectories

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainab...

Навигация