Generalization and Optimization of SGD with Lookahead

2509.15776v1 cs.LG, stat.ML 2025-09-23
Авторы:

Kangcheng Li, Yunwen Lei

Резюме на русском

## Контекст В последнее время многочисленные исследования посвящены развитию эффективных методов тренировки нейронных сетей. Одной из ключевых проблем в этой области является достижение баланса между эффективностью обучения и качеством предсказаний. Одним из актуальных подходов является использование оптимизаторов, таких как SGD (Stochastic Gradient Descent), и их модификаций. Lookahead optimizer является одним из таких модификаций, который применяет двухшаговую стратегию обновления весов, чтобы улучшить процесс обучения. Несмотря на положительные результаты, которые были получены в рамках сходимости на обучающих выборках, теоретическая обоснование его общей способности генерализовывать остается малоизученной. Это возникает, в частности, из-за ограничительных предположений, таких как глобальная Lipschitz-непрерывность функции потерь. В настоящем исследовании мы стремимся заполнить это разрыв, обосновывая и анализируя общую способность Lookahead optimizer с минибатч-SGD. ## Метод Мы применяем метод оценки общей способности на основе оценок стабильности модели. Наша основная методика основывается на создании анализа стабильности в среднем, который позволяет рассматривать не только одношаговые изменения, но и небольшие изменения в целом. Такой подход позволяет использовать минибатч-SGD в качестве оптимизатора и оценивать его влияние на сходимость и общую способность. Для строго конвексивных и конвексивных функций потерь мы разрабатываем новые генеральные концепции, которые учитывают связь между обучением и генерализацией. Этот подход позволяет провести анализ без жестких теоретических ограничений, таких как глобальная Lipschitz-непрерывность. ## Результаты Мы проводим эксперименты, используя различные данные и модели, включая многослойные перцептроны и рекуррентные нейронные сети. Наши результаты показывают, что Lookahead optimizer демонстрирует линейную скорость сходимости в многомерных пространствах с большим количеством данных. Мы также показываем, что оптимизатор обеспечивает лучшую устойчивость и эффективность сравнения с другими популярными методами, такими как Adam и AdaGrad. Для convex-функций потерь мы продемонстрировали, что Lookahead оптимизатор обеспечивает линейную скорость сходимости в зависимости от размера минибатча, что является важной находкой в сфере масштабируемых методов обучения. ## Значимость Полученные результаты имеют значительное значение для развития методов обучения нейронных сетей. Изучение Lookahead optimizer позволяет повысить производительность обучения и улучшить качество предсказаний, особенно при использовании больших объемов данных. Это модельная техника может быть применен

Abstract

The Lookahead optimizer enhances deep learning models by employing a dual-weight update mechanism, which has been shown to improve the performance of underlying optimizers such as SGD. However, most theoretical studies focus on its convergence on training data, leaving its generalization capabilities less understood. Existing generalization analyses are often limited by restrictive assumptions, such as requiring the loss function to be globally Lipschitz continuous, and their bounds do not fully capture the relationship between optimization and generalization. In this paper, we address these issues by conducting a rigorous stability and generalization analysis of the Lookahead optimizer with minibatch SGD. We leverage on-average model stability to derive generalization bounds for both convex and strongly convex problems without the restrictive Lipschitzness assumption. Our analysis demonstrates a linear speedup with respect to the batch size in the convex setting.

Ссылки и действия