Understanding Outer Optimizers in Local SGD: Learning Rates, Momentum, and Acceleration
2509.10439v1
cs.LG, math.OC, stat.ML
2025-09-16
Авторы:
Ahmed Khaled, Satyen Kale, Arthur Douillard, Chi Jin, Rob Fergus, Manzil Zaheer
Резюме на русском
## Контекст
Модерная машинная обучение часто требует обучения с большим размером батча, распределенными данными и масштабируемыми вычислительным оборудованием, таким как мобильные устройства или распределенные центры обработки данных. В таких ситуациях коммуникация становится главным ограничивающим фактором. Одним из потенциальных способов уменьшения этого ограничения является использование Local Stochastic Gradient Descent (Local SGD). Этот метод представляет собой комбинацию локальных оптимизационных процессов, механизмов агрегации и внешнего оптимизатора, который использует агрегированные обновления от узлов для получения новой модели. Хотя существует значительная литература, посвященная влиянию гиперпараметров в локальных процессах, выбор внешнего оптимизатора и его гиперпараметров остается менее ясным. Цель нашего исследования заключается в изучении роли внешнего оптимизатора в Local SGD и в разработке теоретических гарантий для его эффективности.
## Метод
Наша теоретическая модель основывается на изучении взаимодействия локального оптимизатора и внешнего оптимизатора в Local SGD. Мы рассматриваем различные варианты гиперпараметров, включая внешний learning rate и момент (для случая, когда он применяется в внешней оптимизации). Мы доказываем теоретические гарантии для того, как выбор гиперпараметров влияет на ошибку оптимизации и шум стохастических градиентов. Мы также рассматриваем различные случаи, включая ускорение внешнего оптимизатора и гибридные методы. Наши эксперименты проводятся на больших данных, включая языковые модели, и используются различные внешние оптимизаторы для проверки нашей теории.
## Результаты
Мы провели эксперименты, в которых изучали эффект изменения внешнего learning rate на точность модели и ошибку оптимизации. Мы доказали, что увеличение внешнего learning rate может помочь компенсировать неправильный выбор внутреннего learning rate и уменьшить влияние шума в стохастических градиентах. Также мы проверили эффект момента внешнего оптимизатора и показали, что он может улучшить скорость сходимости. Мы также проверили гибридные стратегии, в которых используется ускорение внешнего оптимизатора, и показали, что они могут привести к более быстрой сходимости по отношению к количеству обменов сообщений. Наши результаты подтверждают теоретические выводы и демонстрируют эффективность нашей модели в различных условиях.
## Значимость
Наши результаты имеют значительное значение для работы с большими распределенными моделями, где коммуникация является ключевым ограничивающим фактором. Мы показали, что правильный выбор внешнего learning rate и момента может значительно улучши
Abstract
Modern machine learning often requires training with large batch size,
distributed data, and massively parallel compute hardware (like mobile and
other edge devices or distributed data centers). Communication becomes a major
bottleneck in such settings but methods like Local Stochastic Gradient Descent
(Local SGD) show great promise in reducing this additional communication
overhead. Local SGD consists of three parts: a local optimization process, an
aggregation mechanism, and an outer optimizer that uses the aggregated updates
from the nodes to produce a new model. While there exists an extensive
literature on understanding the impact of hyperparameters in the local
optimization process, the choice of outer optimizer and its hyperparameters is
less clear. We study the role of the outer optimizer in Local SGD, and prove
new convergence guarantees for the algorithm. In particular, we show that
tuning the outer learning rate allows us to (a) trade off between optimization
error and stochastic gradient noise variance, and (b) make up for ill-tuning of
the inner learning rate. Our theory suggests that the outer learning rate
should sometimes be set to values greater than $1$. We extend our results to
settings where we use momentum in the outer optimizer, and we show a similar
role for the momentum-adjusted outer learning rate. We also study acceleration
in the outer optimizer and show that it improves the convergence rate as a
function of the number of communication rounds, improving upon the convergence
rate of prior algorithms that apply acceleration locally. Finally, we also
introduce a novel data-dependent analysis of Local SGD that yields further
insights on outer learning rate tuning. We conduct comprehensive experiments
with standard language models and various outer optimizers to validate our
theory.