Multi-User Contextual Cascading Bandits for Personalized Recommendation
2508.13981v1
cs.LG, math.OC, stat.ML
2025-08-21
Авторы:
Jiho Park, Huiwen Jia
Резюме на русском
## Контекст
Онлайн-реклама является ключевым инструментом для достижения потребителей в современном цифровом мире. Однако сложностью для рекламодателей является персонализация рекламы для каждого пользователя, учитывая их индивидуальные предпочтения и поведенческие модели. Эта сложность усиливается в случае многопользовательских сценариев, когда несколько пользователей взаимодействуют с рекламными материалами одновременно. Это приводит к ряду вызовов: от синхронизации контента до оптимизации рекламного кликабельности. Наша мотивация заключается в разработке модели, которая адаптируется к таким сложным сценариям, обеспечивая эффективную персонализацию и минимальное количество отказов.
## Метод
Мы предлагаем Multi-User Contextual Cascading Bandit (MCCB), новую комбинаторную модель бандитов. MCCB применяется для сценариев, где много пользователей взаимодействуют с последовательно отображаемыми элементами. Она включает три ключевых составляющих: (i) **каскадная обратная связь**, где пользователи просматривают элементы последовательно и останавливаются на первом удовлетворительном; (ii) **параллельные контекстные сессии**, позволяющие эффективно исследовать варианты; и (iii) **нейтрализация регрессии к среднему**, учитывающая уникальные особенности каждого элемента.
Для решения этой задачи мы предлагаем два алгоритма:
1. **Upper Confidence Bound with Backward Planning (UCBBP)**: эта стратегия использует доверительные интервалы для оценки возможных выбираемых элементов, при этом учитывает последствия решений в прошлом.
2. **Active Upper Confidence Bound with Backward Planning (AUCBBP)**: эта модификация улучшает эффективность системы при увеличении количества пользователей, обеспечивая более высокую скорость оптимизации.
Мы доказываем, что оба алгоритма обладают эффективными теоретическими гарантиями на регрет, которые зависят от количества эпизодов $T$, шагов в сессии $H$, и количества контекстов $N$.
## Результаты
Мы проводили ряд экспериментов, используя синтетические данные и реальные данные рекламных кампаний. Наши результаты показывают, что:
- UCBBP показывает стабильную производительность, минимизируя отказы и улучшая кликабельность в случае небольшого числа пользователей.
- AUCBBP демонстрирует значительную эффективность при увеличении числа пользователей, чтобы уменьшить количество отказов и увеличить интерес к рекламе.
- Оба алгоритма показали более эффективность по сравнению с базовыми методами в сценариях, где контекстный выбор и многопользовательские сценарии играют ключевую роль.
## Значимость
Мы видим приложение нашей модели в различных областях, включая персонализацию контента, онлайн-
Abstract
We introduce a Multi-User Contextual Cascading Bandit model, a new
combinatorial bandit framework that captures realistic online advertising
scenarios where multiple users interact with sequentially displayed items
simultaneously. Unlike classical contextual bandits, MCCB integrates three key
structural elements: (i) cascading feedback based on sequential arm exposure,
(ii) parallel context sessions enabling selective exploration, and (iii)
heterogeneous arm-level rewards. We first propose Upper Confidence Bound with
Backward Planning (UCBBP), a UCB-style algorithm tailored to this setting, and
prove that it achieves a regret bound of $\widetilde{O}(\sqrt{THN})$ over $T$
episodes, $H$ session steps, and $N$ contexts per episode. Motivated by the
fact that many users interact with the system simultaneously, we introduce a
second algorithm, termed Active Upper Confidence Bound with Backward Planning
(AUCBBP), which shows a strict efficiency improvement in context scaling, i.e.,
user scaling, with a regret bound of $\widetilde{O}(\sqrt{T+HN})$. We validate
our theoretical findings via numerical experiments, demonstrating the empirical
effectiveness of both algorithms under various settings.