Revisiting Follow-the-Perturbed-Leader with Unbounded Perturbations in Bandit Problems
2508.18604v1
stat.ML, cs.LG
2025-08-28
Авторы:
Jongyeong Lee, Junya Honda, Shinji Ito, Min-hwan Oh
Резюме на русском
## Контекст
В области теории игр и управления, а также в задачах оптимизации, появились многочисленные подходы к решению задач с неопределенными и разнородными данными. Одно из таких решений — Follow-the-Perturbed-Leader (FTPL) — позволяет принимать решения в условиях неопределенности, основываясь на рандомизации. Несмотря на свою теоретическую красоту и перспективу, FTPL сталкивается с ограничениями при попытке расширения его применения на задачи с более широкой структурой. Эти ограничения мотивируют дополнительные исследований, чтобы полностью раскрыть потенциал FTPL в различных задачах, включая задачи многократного гамильтонова анализа в подсистемах. Фундаментальный характер этой проблемы привлекает многочисленных исследователей в теоретическую математику, а также в применения в машинном обучении и алгоритмическом управлении.
## Метод
В этой работе мы возвращаемся к классической теории FTPL, которая связана с FTRL (Follow-the-Regularized-Leader), и рассматриваем ситуации с неограниченными рандомизированными возмущениями в задачах, включающих многократный анализ. Мы используем асимметричные уравнения типа Fréchet-типа и расширяем их для случаев с симметричными и несимметричными возмущениями. Для эффективного анализа, мы вводим гибридные модели, которые сочетают в себе типичные свойства этих типов рандомизации. Наша методика включает анализ этих моделей в базисных теориях и их расширение на более сложные задачи, такие как многоарминные задачи, в которых наблюдается сильная динамика.
## Результаты
Мы доказали, что FTPL может достигать Best-of-Both-Worlds (BOBW) результатов в ситуациях с асимметричными уравнениями типа Fréchet-типа, включая симметричные и несимметричные варианты. Эти достижения расширяют классические результаты, показывая возможность применения FTPL в новых, более сложных средах. Мы также связали $1/2$-Tsallis энтропию с определенными уравнениями Fréchet-типа, что позволило нам установить новые связи между этими понятиями. Наши эксперименты показали, что в двухарминных задачах это подходит к BOBW, но в задачах с большим числом армий, мы обнаружили пример, в котором симметричные возмущения не соответствуют ключевым условиям для BOBW, что отклоняет общепринятые модели.
## Значимость
Результаты этого исследования открывают новые пути для использования FTPL в сложных задачах, таких как многоарминные задачи с разными видами рандомизации. Эти результаты могут быть применимы в алгоритмическом управлении, оптимизации и машинном обучении, где требуется устойчивость и надежность решений в условиях неопределенности. Однако, эксперименты также выявили огра
Abstract
Follow-the-Regularized-Leader (FTRL) policies have achieved
Best-of-Both-Worlds (BOBW) results in various settings through hybrid
regularizers, whereas analogous results for Follow-the-Perturbed-Leader (FTPL)
remain limited due to inherent analytical challenges. To advance the analytical
foundations of FTPL, we revisit classical FTRL-FTPL duality for unbounded
perturbations and establish BOBW results for FTPL under a broad family of
asymmetric unbounded Fr\'echet-type perturbations, including hybrid
perturbations combining Gumbel-type and Fr\'echet-type tails. These results not
only extend the BOBW results of FTPL but also offer new insights into designing
alternative FTPL policies competitive with hybrid regularization approaches.
Motivated by earlier observations in two-armed bandits, we further investigate
the connection between the $1/2$-Tsallis entropy and a Fr\'echet-type
perturbation. Our numerical observations suggest that it corresponds to a
symmetric Fr\'echet-type perturbation, and based on this, we establish the
first BOBW guarantee for symmetric unbounded perturbations in the two-armed
setting. In contrast, in general multi-armed bandits, we find an instance in
which symmetric Fr\'echet-type perturbations violate the key condition for
standard BOBW analysis, which is a problem not observed with asymmetric or
nonnegative Fr\'echet-type perturbations. Although this example does not rule
out alternative analyses achieving BOBW results, it suggests the limitations of
directly applying the relationship observed in two-armed cases to the general
case and thus emphasizes the need for further investigation to fully understand
the behavior of FTPL in broader settings.
Ссылки и действия
Дополнительные ресурсы: