Near-Optimal Regret for Efficient Stochastic Combinatorial Semi-Bandits
2508.06247v1
cs.LG, cs.DS, stat.ML
2025-08-12
Авторы:
Zichun Ye, Runqi Wang, Xutong Liu, Shuai Li
Резюме на русском
## Контекст
Комбинаторные многорукие бандиты (CMAB) являются ключевым подходом в рамках фреймворка последовательных решений, рассматривая целые группы вариантов, а не только отдельные. Однако существуют две основные группы методов: UCB-основые (например, CUCB) и методы адверсарных теорий (например, EXP3.M, HYBRID). Хотя UCB-подходы обеспечивают лучший теоретический показатель регрета, они неэффективны для длительных задач из-за дополнительного $\log T$-фактора. Адверсарные методы, хотя и эффективны, требуют значительных вычислительных ресурсов. В этой статье рассматривается новый подход, Combinatorial Minimax Optimal Strategy in the Stochastic setting (CMOSS), который стремится сбалансировать эти конфликтные требования к эффективности и вычислительной сложности.
## Метод
CMOSS — это вычислительно эффективный алгоритм, основанный на теории игр и оптимизации. Он решает многорукие бандиты с полубандитовой обратной связью, где игрок может видеть результаты не только выбранных, но и невыбранных альтернатив. Алгоритм использует оптимизацию нормальных функций для регулирования штрафа за выбор, а значения регрета взяты на основе экспоненциального закона вероятности. Это позволяет достичь теоретического граница регрета в $O\big( (\log k)^2\sqrt{kmT}\big )$, где $m$ — количество альтернатив, $k$ — максимальный размер выбора.
## Результаты
В экспериментах CMOSS был протестирован на как синтетических, так и на реальных данных. Он показал сопоставимые или лучшие результаты по регрету по сравнению с CUCB и другими методами, при этом эффективность по времени работы была значительно выше. На синтетических данных показано, что CMOSS достигает регрета $O\big( (\log k)^2\sqrt{kmT}\big )$, что не только эквивалентно теоретическому границу, но и превосходит другие методы в рамках реальных задач.
## Значимость
CMOSS может применяться в ситуациях, где требуется эффективное решение задач с выбором из большого количества вариантов, например, в рекламной экспертизе, селекции портфелей инвестиций или распределении ресурсов в сетях. Этот подход обеспечивает высокую эффективность решения, предотвращает вычислительные проблемы, связанные с адверсарными методами, и имеет теоретическую гарантию регрета, которая лучшая по сравнению с другими UCB-методами.
## Выводы
CMOSS достигает почти оптимальных результатов для задач с полубандитовой обратной связью, сочетая высокую эффективность вычислений с гарантированным низким регретом. Будущие исследования будут направлены на расширение применений CMOSS к другим типам обратной связи и улучш
Abstract
The combinatorial multi-armed bandit (CMAB) is a cornerstone of sequential
decision-making framework, dominated by two algorithmic families: UCB-based and
adversarial methods such as follow the regularized leader (FTRL) and online
mirror descent (OMD). However, prominent UCB-based approaches like CUCB suffer
from additional regret factor $\log T$ that is detrimental over long horizons,
while adversarial methods such as EXP3.M and HYBRID impose significant
computational overhead. To resolve this trade-off, we introduce the
Combinatorial Minimax Optimal Strategy in the Stochastic setting (CMOSS). CMOSS
is a computationally efficient algorithm that achieves an instance-independent
regret of $O\big( (\log k)^2\sqrt{kmT}\big )$ under semi-bandit feedback, where
$m$ is the number of arms and $k$ is the maximum cardinality of a feasible
action. Crucially, this result eliminates the dependency on $\log T$ and
matches the established $\Omega\big( \sqrt{kmT}\big)$ lower bound up to
$O\big((\log k)^2\big)$. We then extend our analysis to show that CMOSS is also
applicable to cascading feedback. Experiments on synthetic and real-world
datasets validate that CMOSS consistently outperforms benchmark algorithms in
both regret and runtime efficiency.
Ссылки и действия
Дополнительные ресурсы: