Theoretical Analysis on how Learning Rate Warmup Accelerates Convergence

2509.07972v1 cs.LG, math.OC 2025-09-11

Авторы:

Yuxing Liu, Yuze Ge, Rui Pan, An Kang, Tong Zhang

Резюме на русском

## Контекст В статье рассматривается техника обучения, известная как learning rate warmup, которая широко используется при обучении больших нейронных сетей. Эта техника предполагает постепенное увеличение learning rate (LR) в начале тренировки. Хотя подход показал себя эффективностью в практических задачах, его теоретические преимущества пока не полностью поняты. Мотивация для данного исследования заключается в разведении этого разрыва между теорией и практикой, чтобы дать более подробное понимание того, почему warmup работает и какие выгоды он приносит в процессе обучения. ## Метод Утверждается новая теоретическая модель, основанная на гипотезе о гладкости функции потерь, которая отличается от обычных условий сглаженности. Эта модель позволяет проанализировать влияние learning rate warmup на обучение с помощью градиентного спуска (GD) в определенных условиях. Авторы также разрабатывают модель для случая стохастического GD. Используются теоретические расчеты и эмпирические эксперименты для проверки гипотез. ## Результаты Данные эксперименты показали, что learning rate warmup существенно ускоряет процесс обучения, особенно в случаях, когда функция потерь имеет специфический тип сглаживания. Эксперименты проводились на определенных моделях, в том числе в задачах линейного регрессирования и нейронных сетей. В задачах стохастического GD убедительно доказано, что warmup может ускорить GD в $O(T)$ раз по сравнению с LR, которая не меняется во время обучения. Эти результаты подкрепляются теоретическими выкладками и численными моделями. ## Значимость Научные разработки имеют значительное значение для теории обучения нейронных сетей. Эта техника может использоваться для ускорения и улучшения точности обучения в различных задачах, включая задачи классификации, регрессии и другие. Особенно важным является применение этой техники в задачах обучения с большими данными, где LR-warmup может повысить эффективность и скорость оптимизации. ## Выводы Выводы указывают на то, что learning rate warmup является эффективным методом для ускорения и улучшения градиентного спуска. В будущем потребуется подробнее исследовать другие аспекты этого подхода, включая его применение к различным моделям и задачам, а также поиск новых модификаций LR-warmup для еще большей эффективности. Эти находки могут положительно сказаться на развитии теории и практики обучения больших нейронных сетей.

Abstract

Learning rate warmup is a popular and practical technique in training large-scale deep neural networks. Despite the huge success in practice, the theoretical advantages of this strategy of gradually increasing the learning rate at the beginning of the training process have not been fully understood. To resolve this gap between theory and practice, we first propose a novel family of generalized smoothness assumptions, and validate its applicability both theoretically and empirically. Under the novel smoothness assumption, we study the convergence properties of gradient descent (GD) in both deterministic and stochastic settings. It is shown that learning rate warmup consistently accelerates GD, and GD with warmup can converge at most $\Theta(T)$ times faster than with a non-increasing learning rate schedule in some specific cases, providing insights into the benefits of this strategy from an optimization theory perspective.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Theoretical Analysis on how Learning Rate Warmup Accelerates Convergence

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Convergence for Discrete Parameter Updates

The Geometry of Intelligence: Deterministic Functional Topology as a Foundation ...

Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method

Risk-Sensitive Q-Learning in Continuous Time with Application to Dynamic Portfol...

ARM-Explainer -- Explaining and improving graph neural network predictions for t...

Навигация