Stochastic Adaptive Gradient Descent Without Descent
2509.14969v1
cs.LG, math.OC, stat.ML
2025-09-20
Авторы:
Jean-François Aujol, Jérémie Bigot, Camille Castera
Резюме на русском
#### Контекст
Область исследования адаптивных шаг-размеров в алгоритмах оптимизации занимается разработкой эффективных стратегий для поиска минимума функций. Для стохастических оптимизационных задач это сложно, так как требуется использовать только информацию от приближенного градиента, что приводит к вызову интереса к улучшению стратегий адаптивного выбора шагов. Традиционные методы требуют тщательной тюнинга параметров, что может привести к ошибкам и нестабильности. Эта проблема настояща для задач машинного обучения и данных большого размера, когда гиперпараметры трудно оптимально выбрать.
#### Метод
Мы предлагаем новую стратегию адаптивного выбора шага для стохастического градиентного спуска, которая основывается на локальной геометрии функции минимизации. Технический подход основан на стандартном адаптивном градиентном спуске без отхода (Adaptive Gradient Descent Without Descent), адаптированном для стохастических случаев. Наш подход не требует явного тюнинга гиперпараметров и построен на точных вдольности локальной градиентной информации. Мы также используем стохастические оракулы для оценки градиента и создания шага. Эта методика может адаптироваться к различным сложностям функции, что позволяет устойчиво решать задачи с динамическими данными.
#### Результаты
Для подтверждения эффективности метода проводились ряд экспериментов на данных с высоким размером. Мы сравнили наш алгоритм с другими адаптивными методами, в том числе с вариациями градиентного спуска. Использовались синтетические и реальные данные, включая задачи классификации и регрессии. Результаты показали, что предложенный метод вы most competitive performance compared to the tuned baselines. Это подтверждает его применимость в разных машинном обучении и оптимизационных задачах.
#### Значимость
Предложенный метод может использоваться в широком круге приложений, включая нейронные сети, оптимизацию больших данных и задачи машинного обучения с множеством параметров. Он предлагает преимущества в своей универсальности и отсутствии необходимости в тюнинге параметров. Это может привести к повышению эффективности вычислений, снижению расхода ресурсов и улучшению стабильности решений. Лишение необходимости в гиперпараметрическом тюнинге делает его удобным в реализации и эффективным в многопроблемных средах.
#### Выводы
Мы предложили новую стратегию адаптивного шага для стохастического градиентного спуска, которая позволяет избегать настройки гиперпараметров и адаптироваться к локальной геометрии функции. Этот подход демонстрирует высокую э
Abstract
We introduce a new adaptive step-size strategy for convex optimization with
stochastic gradient that exploits the local geometry of the objective function
only by means of a first-order stochastic oracle and without any
hyper-parameter tuning. The method comes from a theoretically-grounded
adaptation of the Adaptive Gradient Descent Without Descent method to the
stochastic setting. We prove the convergence of stochastic gradient descent
with our step-size under various assumptions, and we show that it empirically
competes against tuned baselines.