Gradient Methods with Online Scaling Part II. Practical Aspects

2509.11007v1 math.OC, cs.LG, stat.ML 2025-09-17
Авторы:

Ya-Chi Chu, Wenzhi Gao, Yinyu Ye, Madeleine Udell

Резюме на русском

## Контекст Оптимизация является ключевым инструментом в различных областях, включая машинное обучение, экономику, жесткую и мягкую инженерию. Однако традиционные методы оптимизации часто требуют дорогостоящих итераций или больших объемов памяти. Это становится особенно важной проблемой в сценариях, где данные поступают потоком или где необходимо эффективно использовать ресурсы. Одним из подходов является использование онлайн-методов оптимизации, которые способны адаптироваться к потоковым условиям. Одна из таких моделей — Online Scaled Gradient Methods (OSGM). В Part I [Gao25] была установлена основа OSGM, но этот работу посвящено исследованию его практических аспектов. ## Метод Методология OSGM основывается на использовании онлайн-конвексической оптимизации для адаптации шагов в градиентных методах. В этой работе авторы расширяют OSGM на динамически изменяющиеся ситуации и применяют его для разработки новых адаптивных методов первого порядка. Основной архитектурой является идея использования скользящих средних и адаптивных масштабов для оптимального управления шагами. Также включены методы уменьшения нагрузки на память, такие как хранение только необходимого ограниченного числа градиентов. Эта гибкость позволяет OSGM-Best оперировать даже в ресурсоразмещающих условиях. ## Результаты Эксперименты проводились на различных задачах, включая задачи обобщенного минимизации и неконвексической оптимизации. Для сравнения использовались классические методы, такие как AdaGrad и quasi-Newton. Результаты показывают, что OSGM-Best не только сопоставим в производительности с quasi-Newton, но и значительно экономит память, а итерации становятся дешевле. Также показано, что OSGM-Best справляется лучше в условиях, где данные поступают по потоку, что делает его привлекательным для реальных задач, таких как хот-старт в машинном обучении. ## Значимость Результаты OSGM-Best имеют широкую полезность в многих областях, от машинного обучения до экономических моделей. Преимуществом является то, что OSGM-Best не только эффективен в ресурсах, но и может адаптироваться к изменению условий. Это делает его полезным для хот-старта в машинном обучении, а также для сценариев с динамическими данными. Будущие исследования могут направляться на дальнейшее уточнение методов для работы в более сложных сценариях, таких как задачи с нелинейными ограничениями или комбинаторными проблемами. ## Выводы Работа показывает, что OSGM-Best является эффективным и практичным алгоритмом для адаптивного решения оптимизационных задач. Он сочетает в себе высокую эффек

Abstract

Part I of this work [Gao25] establishes online scaled gradient methods (OSGM), a framework that utilizes online convex optimization to adapt stepsizes in gradient methods. This paper focuses on the practical aspects of OSGM. We leverage the OSGM framework to design new adaptive first-order methods and provide insights into their empirical behavior. The resulting method, OSGM-Best, matches the performance of quasi-Newton variants while requiring less memory and cheaper iterations. We also extend OSGM to nonconvex optimization and outline directions that connect OSGM to existing branches of optimization theory and practice.

Ссылки и действия