Adaptive Batch Size and Learning Rate Scheduler for Stochastic Gradient Descent Based on Minimization of Stochastic First-order Oracle Complexity
2508.05302v1
cs.LG, math.OC
2025-08-09
Авторы:
Hikaru Umeda, Hideaki Iiduka
Резюме на русском
**Резюме**
Оптимизация глубоких нейронных сетей через мини-батчные итерации стохастического градиентного спуска (SGD) требует оптимального выбора параметров батча и шага обучения. Теоретические исследования показали, что существует критический размер батча, минимизирующий стоимость стохастического первого порядка (SFO). Авторы предлагают адаптивную стратегию для ускорения SGD, использующую этот подход. Она позволяет адаптивно менять размер батча и шаг обучения в зависимости от изменения нормы полного градиента в ходе обучения. Эксперименты с данной стратегией показали, что она ускоряет сходимость SGD по сравнению со существующими методами. Это решение значительно улучшает эффективность мини-батчного SGD в алгоритмах оптимизации нейронных сетей.
Abstract
The convergence behavior of mini-batch stochastic gradient descent (SGD) is
highly sensitive to the batch size and learning rate settings. Recent
theoretical studies have identified the existence of a critical batch size that
minimizes stochastic first-order oracle (SFO) complexity, defined as the
expected number of gradient evaluations required to reach a stationary point of
the empirical loss function in a deep neural network. An adaptive scheduling
strategy is introduced to accelerate SGD that leverages theoretical findings on
the critical batch size. The batch size and learning rate are adjusted on the
basis of the observed decay in the full gradient norm during training.
Experiments using an adaptive joint scheduler based on this strategy
demonstrated improved convergence speed compared with that of existing
schedulers.
Ссылки и действия
Дополнительные ресурсы: