Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity

2508.05297v1 cs.LG, math.OC 2025-08-09

Авторы:

Hikaru Umeda, Hideaki Iiduka

Резюме на русском

Недавнее развитие глубокого обучения привело к моделям с превосходными возможностями, но также привёз к серьезным вычислительным проблемам. Одной из ключевых проблем является оптимальное управление параметрами батча и обучения в стохастических градиентных методах. Неоднородное изменение этих параметров может снизить эффективность оптимизации и сгенерировать переобучение. В статье предлагается новый подход, основанный на теоретических выводах, который оптимизирует рост этих параметров, чтобы достичь хорошего баланса между эффективностью и сходимостью. Эта оптимизация основывается на использовании понятия SFO-сложности (stochastic first-order oracle complexity), которая измеряет ожидаемое число градиентных вычислений для достижения точки $\epsilon$-околостационарной. Авторы проверили гипотезы теоретического моделирования в экспериментах, подтвердив выгоду своего подхода в условиях больших батчей. Это работа даёт новые теоретические знания и практические рекомендации для эффективного обучения в глубоком обучении.

Abstract

The unprecedented growth of deep learning models has enabled remarkable advances but introduced substantial computational bottlenecks. A key factor contributing to training efficiency is batch-size and learning-rate scheduling in stochastic gradient methods. However, naive scheduling of these hyperparameters can degrade optimization efficiency and compromise generalization. Motivated by recent theoretical insights, we investigated how the batch size and learning rate should be increased during training to balance efficiency and convergence. We analyzed this problem on the basis of stochastic first-order oracle (SFO) complexity, defined as the expected number of gradient evaluations needed to reach an $\epsilon$-approximate stationary point of the empirical loss. We theoretically derived optimal growth schedules for the batch size and learning rate that reduce SFO complexity and validated them through extensive experiments. Our results offer both theoretical insights and practical guidelines for scalable and efficient large-batch training in deep learning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Convergence for Discrete Parameter Updates

The Geometry of Intelligence: Deterministic Functional Topology as a Foundation ...

Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method

Risk-Sensitive Q-Learning in Continuous Time with Application to Dynamic Portfol...

ARM-Explainer -- Explaining and improving graph neural network predictions for t...

Навигация