Revisiting Follow-the-Perturbed-Leader with Unbounded Perturbations in Bandit Problems

2508.18604v1 stat.ML, cs.LG 2025-08-28

Авторы:

Jongyeong Lee, Junya Honda, Shinji Ito, Min-hwan Oh

Резюме на русском

## Контекст В области теории игр и управления, а также в задачах оптимизации, появились многочисленные подходы к решению задач с неопределенными и разнородными данными. Одно из таких решений — Follow-the-Perturbed-Leader (FTPL) — позволяет принимать решения в условиях неопределенности, основываясь на рандомизации. Несмотря на свою теоретическую красоту и перспективу, FTPL сталкивается с ограничениями при попытке расширения его применения на задачи с более широкой структурой. Эти ограничения мотивируют дополнительные исследований, чтобы полностью раскрыть потенциал FTPL в различных задачах, включая задачи многократного гамильтонова анализа в подсистемах. Фундаментальный характер этой проблемы привлекает многочисленных исследователей в теоретическую математику, а также в применения в машинном обучении и алгоритмическом управлении. ## Метод В этой работе мы возвращаемся к классической теории FTPL, которая связана с FTRL (Follow-the-Regularized-Leader), и рассматриваем ситуации с неограниченными рандомизированными возмущениями в задачах, включающих многократный анализ. Мы используем асимметричные уравнения типа Fréchet-типа и расширяем их для случаев с симметричными и несимметричными возмущениями. Для эффективного анализа, мы вводим гибридные модели, которые сочетают в себе типичные свойства этих типов рандомизации. Наша методика включает анализ этих моделей в базисных теориях и их расширение на более сложные задачи, такие как многоарминные задачи, в которых наблюдается сильная динамика. ## Результаты Мы доказали, что FTPL может достигать Best-of-Both-Worlds (BOBW) результатов в ситуациях с асимметричными уравнениями типа Fréchet-типа, включая симметричные и несимметричные варианты. Эти достижения расширяют классические результаты, показывая возможность применения FTPL в новых, более сложных средах. Мы также связали $1/2$-Tsallis энтропию с определенными уравнениями Fréchet-типа, что позволило нам установить новые связи между этими понятиями. Наши эксперименты показали, что в двухарминных задачах это подходит к BOBW, но в задачах с большим числом армий, мы обнаружили пример, в котором симметричные возмущения не соответствуют ключевым условиям для BOBW, что отклоняет общепринятые модели. ## Значимость Результаты этого исследования открывают новые пути для использования FTPL в сложных задачах, таких как многоарминные задачи с разными видами рандомизации. Эти результаты могут быть применимы в алгоритмическом управлении, оптимизации и машинном обучении, где требуется устойчивость и надежность решений в условиях неопределенности. Однако, эксперименты также выявили огра

Abstract

Follow-the-Regularized-Leader (FTRL) policies have achieved Best-of-Both-Worlds (BOBW) results in various settings through hybrid regularizers, whereas analogous results for Follow-the-Perturbed-Leader (FTPL) remain limited due to inherent analytical challenges. To advance the analytical foundations of FTPL, we revisit classical FTRL-FTPL duality for unbounded perturbations and establish BOBW results for FTPL under a broad family of asymmetric unbounded Fr\'echet-type perturbations, including hybrid perturbations combining Gumbel-type and Fr\'echet-type tails. These results not only extend the BOBW results of FTPL but also offer new insights into designing alternative FTPL policies competitive with hybrid regularization approaches. Motivated by earlier observations in two-armed bandits, we further investigate the connection between the $1/2$-Tsallis entropy and a Fr\'echet-type perturbation. Our numerical observations suggest that it corresponds to a symmetric Fr\'echet-type perturbation, and based on this, we establish the first BOBW guarantee for symmetric unbounded perturbations in the two-armed setting. In contrast, in general multi-armed bandits, we find an instance in which symmetric Fr\'echet-type perturbations violate the key condition for standard BOBW analysis, which is a problem not observed with asymmetric or nonnegative Fr\'echet-type perturbations. Although this example does not rule out alternative analyses achieving BOBW results, it suggests the limitations of directly applying the relationship observed in two-armed cases to the general case and thus emphasizes the need for further investigation to fully understand the behavior of FTPL in broader settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Revisiting Follow-the-Perturbed-Leader with Unbounded Perturbations in Bandit Problems

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Comparison of neural network training strategies for the simulation of dynamical...

Informative missingness and its implications in semi-supervised learning

Recurrent Neural Networks with Linear Structures for Electricity Price Forecasti...

Control Consistency Losses for Diffusion Bridges

Foundations of Diffusion Models in General State Spaces: A Self-Contained Introd...

Навигация