Unveiling the Role of Learning Rate Schedules via Functional Scaling Laws

2509.19189v2 cs.LG, stat.ML 2025-09-25
Авторы:

Binghui Li, Fengling Chen, Zixun Huang, Lean Wang, Lei Wu

Резюме на русском

```## Контекст Обучение больших языковых моделей (LLMs) является ключевым заданием в области машинного обучения, поскольку эти модели обладают выдающимися способностями в обработке и генерации текста. Одна из существенных сложностей в этой области заключается в успешном выборе и оптимизации алгоритмов обучения. Учитывая, что данные моделей зачастую поступают в небольших порциях (data-limited regime) или требуется минимизировать время обучения (compute-limited regime), выбор правильного стратегии обучения (learning rate schedule, LRS) становится крайне важным. Несмотря на то что scaling laws (результативные законы масштабирования) играют важную роль в руководстве инженеров во время обучения, большинство исследований остаются ограничены в рамках конечного шага оптимизации, не учитывая динамику потерь в процессе обучения. Данная работа направлена на построение более полного понимания этих процессов, особенно с точки зрения LRS. ## Метод Мы проводим наши исследования с использованием модели "учитель-ученик" (teacher-student) в сочетании с регрессией на основе ядер (kernel regression). Обучение производится с использованием онлайн-стратегии онлайн-стохастического градиентного спуска (online stochastic gradient descent, SGD). Для анализа динамики потерь во время обучения, мы применяем подход, основанный на интринсическом времени (intrinsic time) и стохастических дифференциальных уравнениях (stochastic differential equations, SDE). На основе этого подхода мы представляем новую теоретическую модель, называемую Functional Scaling Law (FSL), которая описывает изменения потерь в зависимости от изменений LRS. Этот подход позволяет оценить влияние различных LRS на минимизацию функционала потерь, даже при различных режимах обучения. ## Результаты Мы проводим эксперименты с тремя различными LRS: константной, экспоненциальной декрессии и warmup-stable-decay (WSD). Эти сетки были протестированы в двух режимах: с ограниченным объемом данных и с ограниченным объемом вычислительных ресурсов. Эксперименты показали, что выбор LRS может значительно повлиять на эффективность обучения. Например, WSD-like schedules показали лучшую точность по сравнению с прямыми планами уменьшения learning rate. Мы также показали, как можно использовать FSL для лучшего понимания и оптимизации LLS pre-training, в том числе на моделях различных размеров, начиная от 0.1 миллиардов до 1 миллиарда параметров. ## Значимость Наша работа имеет значительное значение в области машинного обучения, так как она расширяет понятия scaling laws за пределы конечного шага оптимизации. Мы демонстрируем, что FSL может быть использована для понимания динамики потерь во время обучения и для оптимизации LRS в различных режимах. Это имеет практическое значение для улучшения эффективности обучения больших

Abstract

Scaling laws have played a cornerstone role in guiding the training of large language models (LLMs). However, most existing works on scaling laws primarily focus on the final-step loss, overlooking the loss dynamics during the training process and, crucially, the impact of learning rate schedule (LRS). In this paper, we aim to bridge this gap by studying a teacher-student kernel regression setup trained via online stochastic gradient descent (SGD). Leveraging a novel intrinsic time viewpoint and stochastic differential equation (SDE) modeling of SGD, we introduce the Functional Scaling Law (FSL), which characterizes the evolution of population risk during the training process for general LRSs. Remarkably, the impact of the LRSs is captured through an explicit convolution-type functional term, making their effects fully tractable. To illustrate the utility of FSL, we analyze three widely used LRSs -- constant, exponential decay, and warmup-stable-decay (WSD) -- under both data-limited and compute-limited regimes. We provide theoretical justification for widely adopted empirical practices in LLMs pre-training such as (i) higher-capacity models are more data- and compute-efficient; (ii) learning rate decay can improve training efficiency; (iii) WSD-like schedules can outperform direct-decay schedules. Lastly, we explore the practical relevance of FSL as a surrogate model for fitting, predicting and optimizing the loss curves in LLM pre-training, with experiments conducted across model sizes ranging from 0.1B to 1B parameters. We hope our FSL framework can deepen the understanding of LLM pre-training dynamics and provide insights for improving large-scale model training.

Ссылки и действия