Stochastic Adaptive Gradient Descent Without Descent

2509.14969v1 cs.LG, math.OC, stat.ML 2025-09-20

Авторы:

Jean-François Aujol, Jérémie Bigot, Camille Castera

Резюме на русском

#### Контекст Область исследования адаптивных шаг-размеров в алгоритмах оптимизации занимается разработкой эффективных стратегий для поиска минимума функций. Для стохастических оптимизационных задач это сложно, так как требуется использовать только информацию от приближенного градиента, что приводит к вызову интереса к улучшению стратегий адаптивного выбора шагов. Традиционные методы требуют тщательной тюнинга параметров, что может привести к ошибкам и нестабильности. Эта проблема настояща для задач машинного обучения и данных большого размера, когда гиперпараметры трудно оптимально выбрать. #### Метод Мы предлагаем новую стратегию адаптивного выбора шага для стохастического градиентного спуска, которая основывается на локальной геометрии функции минимизации. Технический подход основан на стандартном адаптивном градиентном спуске без отхода (Adaptive Gradient Descent Without Descent), адаптированном для стохастических случаев. Наш подход не требует явного тюнинга гиперпараметров и построен на точных вдольности локальной градиентной информации. Мы также используем стохастические оракулы для оценки градиента и создания шага. Эта методика может адаптироваться к различным сложностям функции, что позволяет устойчиво решать задачи с динамическими данными. #### Результаты Для подтверждения эффективности метода проводились ряд экспериментов на данных с высоким размером. Мы сравнили наш алгоритм с другими адаптивными методами, в том числе с вариациями градиентного спуска. Использовались синтетические и реальные данные, включая задачи классификации и регрессии. Результаты показали, что предложенный метод вы most competitive performance compared to the tuned baselines. Это подтверждает его применимость в разных машинном обучении и оптимизационных задачах. #### Значимость Предложенный метод может использоваться в широком круге приложений, включая нейронные сети, оптимизацию больших данных и задачи машинного обучения с множеством параметров. Он предлагает преимущества в своей универсальности и отсутствии необходимости в тюнинге параметров. Это может привести к повышению эффективности вычислений, снижению расхода ресурсов и улучшению стабильности решений. Лишение необходимости в гиперпараметрическом тюнинге делает его удобным в реализации и эффективным в многопроблемных средах. #### Выводы Мы предложили новую стратегию адаптивного шага для стохастического градиентного спуска, которая позволяет избегать настройки гиперпараметров и адаптироваться к локальной геометрии функции. Этот подход демонстрирует высокую э

Abstract

We introduce a new adaptive step-size strategy for convex optimization with stochastic gradient that exploits the local geometry of the objective function only by means of a first-order stochastic oracle and without any hyper-parameter tuning. The method comes from a theoretically-grounded adaptation of the Adaptive Gradient Descent Without Descent method to the stochastic setting. We prove the convergence of stochastic gradient descent with our step-size under various assumptions, and we show that it empirically competes against tuned baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Stochastic Adaptive Gradient Descent Without Descent

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy D...

When do spectral gradient updates help in deep learning?

Lower Complexity Bounds for Nonconvex-Strongly-Convex Bilevel Optimization with ...

Adaptivity and Universality: Problem-dependent Universal Regret for Online Conve...

A Best-of-Both-Worlds Proof for Tsallis-INF without Fenchel Conjugates

Навигация