Scaling with Collapse: Efficient and Predictable Training of LLM Families
2509.25087v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Shane Bergsma, Bin Claire Zhang, Nolan Dey, Shaheer Muhammad, Gurpreet Gosal, Joel Hestness
Резюме на русском
## Контекст
Обучение больших лингвистических моделей (LLM) требует стабильности и эффективности, чтобы обеспечить результаты, которые могут быть проверены и воспроизведены. Одной из ключевых проблем является то, что поведение модели во время обучения часто отличается, когда мы масштабируем модели разными способами (например, увеличивая их глубину или ширину). Это может привести к непредсказуемости и трудностям в оптимизации. Недавние исследования показали, что поведение модели может быть предсказуемым, если оптимизационные параметры выбираются в соответствии с эмпирическими законами масштабирования. Однако, пока неясно, сохраняется ли такая предсказуемость при масштабировании моделей при реальных условиях, когда несколько параметров масштабируются одновременно. Мы исследуем этот вопрос, чтобы установить, можно ли использовать предсказуемость для эффективного обучения LLM и как это может повлиять на практику.
## Метод
Мы исследуем свойство "обвала" (collapse) тренировочных кривых, когда оптимизационные параметры выбираются в соответствии с набором рекомендаций по масштабированию. Для этого мы сравниваем поведение моделей различных размеров, когда используются оптимальные параметры, и оцениваем, насколько хорошо они соответствуют общей тренировочной траектории. Мы также используем инструменты анализа вывода (forward inference) для оценки того, на сколько модели эффективно обучаются. Мы проводим эксперименты с различными моделями, изменяя ширину, глубину моделей, гиперпараметры обучения, и изучаем, насколько хорошо прогнозируется их поведение при разных масштабированиях.
## Результаты
Мы обнаружили, что при использовании оптимальных параметров масштабирования кривые тренировки моделей разных размеров приходят в одну общую траекторию (collapse). Это поведение указывает на то, что модели обучаются эффективно и согласно предсказаниям эмпирических законов. Более того, мы проверили, насколько предсказуемым является поведение модели во время обучения. Мы также проверили, насколько хорошо модели соответствуют теоретическим ожиданиям, и обнаружили, что при оптимальном масштабировании потери (loss) моделей уменьшаются с ожидаемым порядком, что указывает на то, что они обучаются эффективно и предсказуемо.
## Значимость
Наша работа показывает, что при оптимальном масштабировании модели не только обучаются быстрее, но и предоставляют предсказуемый результат. Это может быть полезно в сценариях, где необходима эффективность и точность, например, при обучении моделей для трансляции или описания текста. Мы также показываем, что этот подход может быть
Abstract
Effective LLM training relies on *consistency*, meaning that key quantities
-- such as final losses and optimal hyperparameters -- scale predictably across
model sizes. Qiu et al. (2025) recently showed that this consistency extends
beyond scalars: whole training loss curves can *collapse* onto a universal
trajectory after a simple normalization. What remains unclear is whether this
phenomenon holds for LLM families trained under *practical scaling recipes*,
where width, depth, learning rate, batch size, and weight decay are scaled
jointly. We show that it does: loss curves collapse across scales precisely
when optimization hyperparameters are set optimally for the given data budget,
in accordance with recent empirical scaling laws. Collapse thus emerges as a
signature of compute-efficient training. We demonstrate two applications at
scale: (1) deviation-from-collapse provides a sensitive, early diagnostic of
training pathologies, and (2) the predictability of collapsed curves enables
early stopping in large-scale hyperparameter tuning. Finally, we train a
competitive LLM family, *Celerity*, using these insights, highlighting collapse
as an effective tool for developing efficient LLMs.
Ссылки и действия
Дополнительные ресурсы: