Scaling with Collapse: Efficient and Predictable Training of LLM Families

2509.25087v1 cs.LG, cs.AI, cs.CL 2025-10-01

Авторы:

Shane Bergsma, Bin Claire Zhang, Nolan Dey, Shaheer Muhammad, Gurpreet Gosal, Joel Hestness

Резюме на русском

## Контекст Обучение больших лингвистических моделей (LLM) требует стабильности и эффективности, чтобы обеспечить результаты, которые могут быть проверены и воспроизведены. Одной из ключевых проблем является то, что поведение модели во время обучения часто отличается, когда мы масштабируем модели разными способами (например, увеличивая их глубину или ширину). Это может привести к непредсказуемости и трудностям в оптимизации. Недавние исследования показали, что поведение модели может быть предсказуемым, если оптимизационные параметры выбираются в соответствии с эмпирическими законами масштабирования. Однако, пока неясно, сохраняется ли такая предсказуемость при масштабировании моделей при реальных условиях, когда несколько параметров масштабируются одновременно. Мы исследуем этот вопрос, чтобы установить, можно ли использовать предсказуемость для эффективного обучения LLM и как это может повлиять на практику. ## Метод Мы исследуем свойство "обвала" (collapse) тренировочных кривых, когда оптимизационные параметры выбираются в соответствии с набором рекомендаций по масштабированию. Для этого мы сравниваем поведение моделей различных размеров, когда используются оптимальные параметры, и оцениваем, насколько хорошо они соответствуют общей тренировочной траектории. Мы также используем инструменты анализа вывода (forward inference) для оценки того, на сколько модели эффективно обучаются. Мы проводим эксперименты с различными моделями, изменяя ширину, глубину моделей, гиперпараметры обучения, и изучаем, насколько хорошо прогнозируется их поведение при разных масштабированиях. ## Результаты Мы обнаружили, что при использовании оптимальных параметров масштабирования кривые тренировки моделей разных размеров приходят в одну общую траекторию (collapse). Это поведение указывает на то, что модели обучаются эффективно и согласно предсказаниям эмпирических законов. Более того, мы проверили, насколько предсказуемым является поведение модели во время обучения. Мы также проверили, насколько хорошо модели соответствуют теоретическим ожиданиям, и обнаружили, что при оптимальном масштабировании потери (loss) моделей уменьшаются с ожидаемым порядком, что указывает на то, что они обучаются эффективно и предсказуемо. ## Значимость Наша работа показывает, что при оптимальном масштабировании модели не только обучаются быстрее, но и предоставляют предсказуемый результат. Это может быть полезно в сценариях, где необходима эффективность и точность, например, при обучении моделей для трансляции или описания текста. Мы также показываем, что этот подход может быть

Abstract

Effective LLM training relies on *consistency*, meaning that key quantities -- such as final losses and optimal hyperparameters -- scale predictably across model sizes. Qiu et al. (2025) recently showed that this consistency extends beyond scalars: whole training loss curves can *collapse* onto a universal trajectory after a simple normalization. What remains unclear is whether this phenomenon holds for LLM families trained under *practical scaling recipes*, where width, depth, learning rate, batch size, and weight decay are scaled jointly. We show that it does: loss curves collapse across scales precisely when optimization hyperparameters are set optimally for the given data budget, in accordance with recent empirical scaling laws. Collapse thus emerges as a signature of compute-efficient training. We demonstrate two applications at scale: (1) deviation-from-collapse provides a sensitive, early diagnostic of training pathologies, and (2) the predictability of collapsed curves enables early stopping in large-scale hyperparameter tuning. Finally, we train a competitive LLM family, *Celerity*, using these insights, highlighting collapse as an effective tool for developing efficient LLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация