Unveiling the Role of Learning Rate Schedules via Functional Scaling Laws
2509.19189v2
cs.LG, stat.ML
2025-09-25
Авторы:
Binghui Li, Fengling Chen, Zixun Huang, Lean Wang, Lei Wu
Резюме на русском
```## Контекст
Обучение больших языковых моделей (LLMs) является ключевым заданием в области машинного обучения, поскольку эти модели обладают выдающимися способностями в обработке и генерации текста. Одна из существенных сложностей в этой области заключается в успешном выборе и оптимизации алгоритмов обучения. Учитывая, что данные моделей зачастую поступают в небольших порциях (data-limited regime) или требуется минимизировать время обучения (compute-limited regime), выбор правильного стратегии обучения (learning rate schedule, LRS) становится крайне важным. Несмотря на то что scaling laws (результативные законы масштабирования) играют важную роль в руководстве инженеров во время обучения, большинство исследований остаются ограничены в рамках конечного шага оптимизации, не учитывая динамику потерь в процессе обучения. Данная работа направлена на построение более полного понимания этих процессов, особенно с точки зрения LRS.
## Метод
Мы проводим наши исследования с использованием модели "учитель-ученик" (teacher-student) в сочетании с регрессией на основе ядер (kernel regression). Обучение производится с использованием онлайн-стратегии онлайн-стохастического градиентного спуска (online stochastic gradient descent, SGD). Для анализа динамики потерь во время обучения, мы применяем подход, основанный на интринсическом времени (intrinsic time) и стохастических дифференциальных уравнениях (stochastic differential equations, SDE). На основе этого подхода мы представляем новую теоретическую модель, называемую Functional Scaling Law (FSL), которая описывает изменения потерь в зависимости от изменений LRS. Этот подход позволяет оценить влияние различных LRS на минимизацию функционала потерь, даже при различных режимах обучения.
## Результаты
Мы проводим эксперименты с тремя различными LRS: константной, экспоненциальной декрессии и warmup-stable-decay (WSD). Эти сетки были протестированы в двух режимах: с ограниченным объемом данных и с ограниченным объемом вычислительных ресурсов. Эксперименты показали, что выбор LRS может значительно повлиять на эффективность обучения. Например, WSD-like schedules показали лучшую точность по сравнению с прямыми планами уменьшения learning rate. Мы также показали, как можно использовать FSL для лучшего понимания и оптимизации LLS pre-training, в том числе на моделях различных размеров, начиная от 0.1 миллиардов до 1 миллиарда параметров.
## Значимость
Наша работа имеет значительное значение в области машинного обучения, так как она расширяет понятия scaling laws за пределы конечного шага оптимизации. Мы демонстрируем, что FSL может быть использована для понимания динамики потерь во время обучения и для оптимизации LRS в различных режимах. Это имеет практическое значение для улучшения эффективности обучения больших
Abstract
Scaling laws have played a cornerstone role in guiding the training of large
language models (LLMs). However, most existing works on scaling laws primarily
focus on the final-step loss, overlooking the loss dynamics during the training
process and, crucially, the impact of learning rate schedule (LRS). In this
paper, we aim to bridge this gap by studying a teacher-student kernel
regression setup trained via online stochastic gradient descent (SGD).
Leveraging a novel intrinsic time viewpoint and stochastic differential
equation (SDE) modeling of SGD, we introduce the Functional Scaling Law (FSL),
which characterizes the evolution of population risk during the training
process for general LRSs. Remarkably, the impact of the LRSs is captured
through an explicit convolution-type functional term, making their effects
fully tractable. To illustrate the utility of FSL, we analyze three widely used
LRSs -- constant, exponential decay, and warmup-stable-decay (WSD) -- under
both data-limited and compute-limited regimes. We provide theoretical
justification for widely adopted empirical practices in LLMs pre-training such
as (i) higher-capacity models are more data- and compute-efficient; (ii)
learning rate decay can improve training efficiency; (iii) WSD-like schedules
can outperform direct-decay schedules. Lastly, we explore the practical
relevance of FSL as a surrogate model for fitting, predicting and optimizing
the loss curves in LLM pre-training, with experiments conducted across model
sizes ranging from 0.1B to 1B parameters. We hope our FSL framework can deepen
the understanding of LLM pre-training dynamics and provide insights for
improving large-scale model training.
Ссылки и действия
Дополнительные ресурсы: