Efficient Best-of-Both-Worlds Algorithms for Contextual Combinatorial Semi-Bandits
2508.18768v1
stat.ML, cs.LG
2025-08-28
Авторы:
Mengmeng Li, Philipp Schneider, Jelisaveta Aleksić, Daniel Kuhn
Резюме на русском
## Контекст
Контекстно-комбинаторные полубандиты — это модели, которые объединяют аспекты контекстной оптимизации и полубандитных систем. В таких моделях выбор действия зависит от контекста, а результат может относиться к категории событий с неизвестным распределением. Эти модели находят применение в многих областях, таких как рекомендательные системы, игровые теории и электронная коммерция. Однако одним из основных вызовов в этой области является создание алгоритмов, которые могут эффективно работать в разных режимах: адверсальном, где известно несколько альтернативных стратегий, и стохастическом, где знания о данных поступают непосредственно в процессе. Ранее не было решений, которые могли бы обеспечивать гарантии регрета в обоих режимах сразу.
## Метод
Мы предлагаем модель, основанную на Framework FTRL (Follow-the-Regularized-Leader), которая использует Shannon entropy в качестве регуляризатора. Данный подход позволяет предлагать решения быстро и эффективно, что гарантируется теоретическими оценками регрета. Наш алгоритм может гарантировать $\widetilde{\mathcal{O}}(\sqrt{T})$ regret в адверсальном режиме и $\widetilde{\mathcal{O}}(\ln T)$ regret в стохастическом режиме. Одним из ключевых моментов является ускорение процесса обновления, который включает вычисление проекций. Мы используем теорему Каруша-Куна-Текера (KKT), чтобы преобразовать $K$-мерные проекции в простейшие решения одномерных уравнений. Это увеличивает скорость реагирования и обеспечивает высокую производительность.
## Результаты
Мы провели ряд экспериментов, используя различные данные, включая синтетические и реальные. Наши результаты показывают, что алгоритм обеспечивает высокую скорость работы в режиме реального времени и эффективно решает задачи, где требуется быстрое принятие решений. Регреты в адверсальном режиме и стохастическом режиме соответствуют нашим теоретическим оценкам. Эти результаты указывают на эффективность нашего подхода в решении проблем, где требуется высокая скорость и точность.
## Значимость
Наш алгоритм может применяться в различных сферах приложений, таких как рекомендательные системы, распределенные системы, где требуется быстрое принятие решений. Он позволяет эффективно справляться с задачами, где необходимо быстро отвечать на изменения среды и принимать решения в реальном времени. Кроме того, наш подход обеспечивает не только высокую эффективность, но и достаточную гибкость для решения различных задач. Это делает его полезным для разных типов приложений, включая электронную коммерцию, игровые теории и другие.
## Выводы
Мы представили первый алгоритм, обеспечивающий гарантии регр
Abstract
We introduce the first best-of-both-worlds algorithm for contextual
combinatorial semi-bandits that simultaneously guarantees
$\widetilde{\mathcal{O}}(\sqrt{T})$ regret in the adversarial regime and
$\widetilde{\mathcal{O}}(\ln T)$ regret in the corrupted stochastic regime. Our
approach builds on the Follow-the-Regularized-Leader (FTRL) framework equipped
with a Shannon entropy regularizer, yielding a flexible method that admits
efficient implementations. Beyond regret bounds, we tackle the practical
bottleneck in FTRL (or, equivalently, Online Stochastic Mirror Descent) arising
from the high-dimensional projection step encountered in each round of
interaction. By leveraging the Karush-Kuhn-Tucker conditions, we transform the
$K$-dimensional convex projection problem into a single-variable root-finding
problem, dramatically accelerating each round. Empirical evaluations
demonstrate that this combined strategy not only attains the attractive regret
bounds of best-of-both-worlds algorithms but also delivers substantial
per-round speed-ups, making it well-suited for large-scale, real-time
applications.
Ссылки и действия
Дополнительные ресурсы: