Near-Optimal Regret for Efficient Stochastic Combinatorial Semi-Bandits

2508.06247v1 cs.LG, cs.DS, stat.ML 2025-08-12

Авторы:

Zichun Ye, Runqi Wang, Xutong Liu, Shuai Li

Резюме на русском

## Контекст Комбинаторные многорукие бандиты (CMAB) являются ключевым подходом в рамках фреймворка последовательных решений, рассматривая целые группы вариантов, а не только отдельные. Однако существуют две основные группы методов: UCB-основые (например, CUCB) и методы адверсарных теорий (например, EXP3.M, HYBRID). Хотя UCB-подходы обеспечивают лучший теоретический показатель регрета, они неэффективны для длительных задач из-за дополнительного $\log T$-фактора. Адверсарные методы, хотя и эффективны, требуют значительных вычислительных ресурсов. В этой статье рассматривается новый подход, Combinatorial Minimax Optimal Strategy in the Stochastic setting (CMOSS), который стремится сбалансировать эти конфликтные требования к эффективности и вычислительной сложности. ## Метод CMOSS — это вычислительно эффективный алгоритм, основанный на теории игр и оптимизации. Он решает многорукие бандиты с полубандитовой обратной связью, где игрок может видеть результаты не только выбранных, но и невыбранных альтернатив. Алгоритм использует оптимизацию нормальных функций для регулирования штрафа за выбор, а значения регрета взяты на основе экспоненциального закона вероятности. Это позволяет достичь теоретического граница регрета в $O\big( (\log k)^2\sqrt{kmT}\big )$, где $m$ — количество альтернатив, $k$ — максимальный размер выбора. ## Результаты В экспериментах CMOSS был протестирован на как синтетических, так и на реальных данных. Он показал сопоставимые или лучшие результаты по регрету по сравнению с CUCB и другими методами, при этом эффективность по времени работы была значительно выше. На синтетических данных показано, что CMOSS достигает регрета $O\big( (\log k)^2\sqrt{kmT}\big )$, что не только эквивалентно теоретическому границу, но и превосходит другие методы в рамках реальных задач. ## Значимость CMOSS может применяться в ситуациях, где требуется эффективное решение задач с выбором из большого количества вариантов, например, в рекламной экспертизе, селекции портфелей инвестиций или распределении ресурсов в сетях. Этот подход обеспечивает высокую эффективность решения, предотвращает вычислительные проблемы, связанные с адверсарными методами, и имеет теоретическую гарантию регрета, которая лучшая по сравнению с другими UCB-методами. ## Выводы CMOSS достигает почти оптимальных результатов для задач с полубандитовой обратной связью, сочетая высокую эффективность вычислений с гарантированным низким регретом. Будущие исследования будут направлены на расширение применений CMOSS к другим типам обратной связи и улучш

Abstract

The combinatorial multi-armed bandit (CMAB) is a cornerstone of sequential decision-making framework, dominated by two algorithmic families: UCB-based and adversarial methods such as follow the regularized leader (FTRL) and online mirror descent (OMD). However, prominent UCB-based approaches like CUCB suffer from additional regret factor $\log T$ that is detrimental over long horizons, while adversarial methods such as EXP3.M and HYBRID impose significant computational overhead. To resolve this trade-off, we introduce the Combinatorial Minimax Optimal Strategy in the Stochastic setting (CMOSS). CMOSS is a computationally efficient algorithm that achieves an instance-independent regret of $O\big( (\log k)^2\sqrt{kmT}\big )$ under semi-bandit feedback, where $m$ is the number of arms and $k$ is the maximum cardinality of a feasible action. Crucially, this result eliminates the dependency on $\log T$ and matches the established $\Omega\big( \sqrt{kmT}\big)$ lower bound up to $O\big((\log k)^2\big)$. We then extend our analysis to show that CMOSS is also applicable to cascading feedback. Experiments on synthetic and real-world datasets validate that CMOSS consistently outperforms benchmark algorithms in both regret and runtime efficiency.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Near-Optimal Regret for Efficient Stochastic Combinatorial Semi-Bandits

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

High-Accuracy List-Decodable Mean Estimation

Sample-Adaptivity Tradeoff in On-Demand Sampling

Efficient Calibration for Decision Making

Probabilistic Graph Cuts

Sublinear Sketches for Approximate Nearest Neighbor and Kernel Density Estimatio...

Навигация