Stochastic Gradient Descent with Strategic Querying

2508.17144v1 cs.LG, math.OC 2025-08-27

Авторы:

Nanfei Jiang, Hoi-To Wai, Mahnoosh Alizadeh

Резюме на русском

## Контекст Проблема оптимизации, особенно в случае задач с большим количеством переменных, широко распространена в машинном обучении и других областях. Одним из ключевых аспектов этих задач является выбор стратегии сбора градиентов в ходе оптимизации. Для многих методов, таких как SGD (Stochastic Gradient Descent), выбор градиентов, на которые ориентируются алгоритмы, может значительно сказываться на эффективности работы алгоритма. Однако существуют ситуации, когда стратегически выбирать градиенты может привести к существенному повышению производительности в сравнении с простой, например, униформной стратегией. Мотивируя подобный подход и исследуя его возможности, авторы приходят к разработке и анализу различных стратегий оптимизации. ## Метод Авторы рассматривают задачу оптимизации функции, заданной как сумма независимых случайных функций, и исследуют различные стратегии по выбору градиентов для оценки направления уменьшения функционала. Одним из алгоритмов, предложенных в работе, является Oracle Gradient Querying (OGQ), который представляет собой идеальную модель, где выбирается градиент, обеспечивающий максимально вероятный прогресс на каждом шаге. Однако, так как в реальной жизни доступ к градиентам всех пользователей (например, в распределенном сценарии) недоступен, авторы предлагают алгоритм Strategic Gradient Querying (SGQ), который делает один градиентный вызов на каждой итерации и показывает лучшую производительность в сравнении с простой стратегией. ## Результаты Авторы проводят эксперименты с различными функционалами, в том числе такими, что удовлетворяют свойству Polyak-Lojasiewicz, чтобы оценить производительность различных стратегий. Они показывают, что Oracle Gradient Querying не только улучшает производительность в начале оптимизации, но и снижает дисперсию в последней стадии. Тем не менее, его использование требует доступа к градиентам всех пользователей, что не практично. Алгоритм Strategic Gradient Querying, в свою очередь, показывает лучшую производительность в сравнении со стандартным SGD в ходе одной итерации. ## Значимость Результаты этой работы могут быть применимы в различных областях, где высокая эффективность оптимизации критична. Например, в машинном обучении или распределенных системах, где выбор градиентов может существенно влиять на общую эффективность. Особенно полезными являются стратегии, предлагаемые в данной работе, так как они не только улучшают периоды первоначального улучшения, но и снижают дисперсию в конце оптимизации. ## Выводы Авторы показали, что стратегический выбор градиентов может значительно повысить эфф

Abstract

This paper considers a finite-sum optimization problem under first-order queries and investigates the benefits of strategic querying on stochastic gradient-based methods compared to uniform querying strategy. We first introduce Oracle Gradient Querying (OGQ), an idealized algorithm that selects one user's gradient yielding the largest possible expected improvement (EI) at each step. However, OGQ assumes oracle access to the gradients of all users to make such a selection, which is impractical in real-world scenarios. To address this limitation, we propose Strategic Gradient Querying (SGQ), a practical algorithm that has better transient-state performance than SGD while making only one query per iteration. For smooth objective functions satisfying the Polyak-Lojasiewicz condition, we show that under the assumption of EI heterogeneity, OGQ enhances transient-state performance and reduces steady-state variance, while SGQ improves transient-state performance over SGD. Our numerical experiments validate our theoretical findings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Stochastic Gradient Descent with Strategic Querying

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Convergence for Discrete Parameter Updates

The Geometry of Intelligence: Deterministic Functional Topology as a Foundation ...

Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method

Risk-Sensitive Q-Learning in Continuous Time with Application to Dynamic Portfol...

ARM-Explainer -- Explaining and improving graph neural network predictions for t...

Навигация