Online Convex Optimization with Heavy Tails: Old Algorithms, New Regrets, and Applications

2508.07473v1 cs.LG, math.OC, stat.ML 2025-08-13

Авторы:

Zijian Liu

Резюме на русском

## Контекст Онлайн-конвексное оптимизационное построение (Online Convex Optimization, OCO) широко применяется в машинном обучении, экономике, физике и других областях. Основная задача в OCO — минимизировать функцию, которая постепенно открывается в ходе онлайн-интеракций. Если стохастический градиент имеет ограниченную дисперсию, существуют многочисленные алгоритмы, которые гарантируют оптимальный регрет в случае бесконечных вычислений. Однако, если стохастический градиент имеет тяжелую хвостовую характеристику (heavy tail), то существуют лимитированные результаты. Это может происходить при ограниченном $\mathsf{p}$-м центральном моменте, где $\mathsf{p} \in (1,2]$. Этот феномен встречается в реальных задачах, например, в обработке выборок с высокой дисперсией или распределениями с некоторыми выбросами. Мотивируясь этим, данная работа исследует старые алгоритмы OCO в таком подходе, не требуя модификаций, и рассматривает его на примерах. ## Метод Для изучения OCO в условиях тяжелого хвоста основной методологией является новая аналитическая модель, которая рассматривает старые методы (например, Online Gradient Descent) в новом свете. Главная идея заключается в том, что не требуется переработка этих методов, а достаточно использовать ограниченную доступную информацию о характере шума в градиентах. Для этих целей используется ансамбль техник, которые развивались в теории конвексных задач. Результаты достигаются без изменения самих алгоритмов, а дополнительные средства, такие как градиентный клиппинг, не требуются. Изучается оптимальность новых регретных показателей, которые достигаются в стандартном границе вариантов. ## Результаты В ходе выполнения экспериментов показано, что классические методы OCO, такие как Online Gradient Descent, могут эффективно работать в условиях тяжелого хвоста. Это достигается без модификаций, только с использованием документированных методов. Для разных значений $\mathsf{p}$ получены регреты, которые являются оптимальными во всех параметрах. Эти результаты подтверждают, что OCO с тяжелым хвостом может быть успешно решаем без дополнительных процедур, таких как градиентный клиппинг. На практике, эти результаты могут применяться в задачах, где градиенты имеют высокую дисперсию или отклонения, например, в проблемах обучения с учителем, где данные могут иметь выбросы. ## Значимость Алгоритмы, рассмотренные в работе, могут применяться в различных областях, таких как машинное обучение, анализ данных и финансы. В частности, полученные результаты могут применяться в задачах обучения с учителем при высокой дис

Abstract

In Online Convex Optimization (OCO), when the stochastic gradient has a finite variance, many algorithms provably work and guarantee a sublinear regret. However, limited results are known if the gradient estimate has a heavy tail, i.e., the stochastic gradient only admits a finite $\mathsf{p}$-th central moment for some $\mathsf{p}\in\left(1,2\right]$. Motivated by it, this work examines different old algorithms for OCO (e.g., Online Gradient Descent) in the more challenging heavy-tailed setting. Under the standard bounded domain assumption, we establish new regrets for these classical methods without any algorithmic modification. Remarkably, these regret bounds are fully optimal in all parameters (can be achieved even without knowing $\mathsf{p}$), suggesting that OCO with heavy tails can be solved effectively without any extra operation (e.g., gradient clipping). Our new results have several applications. A particularly interesting one is the first provable convergence result for nonsmooth nonconvex optimization under heavy-tailed noise without gradient clipping. Furthermore, we explore broader settings (e.g., smooth OCO) and extend our ideas to optimistic algorithms to handle different cases simultaneously.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Online Convex Optimization with Heavy Tails: Old Algorithms, New Regrets, and Applications

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy D...

When do spectral gradient updates help in deep learning?

Lower Complexity Bounds for Nonconvex-Strongly-Convex Bilevel Optimization with ...

Adaptivity and Universality: Problem-dependent Universal Regret for Online Conve...

A Best-of-Both-Worlds Proof for Tsallis-INF without Fenchel Conjugates

Навигация