Multi-User Contextual Cascading Bandits for Personalized Recommendation

2508.13981v1 cs.LG, math.OC, stat.ML 2025-08-21
Авторы:

Jiho Park, Huiwen Jia

Резюме на русском

## Контекст Онлайн-реклама является ключевым инструментом для достижения потребителей в современном цифровом мире. Однако сложностью для рекламодателей является персонализация рекламы для каждого пользователя, учитывая их индивидуальные предпочтения и поведенческие модели. Эта сложность усиливается в случае многопользовательских сценариев, когда несколько пользователей взаимодействуют с рекламными материалами одновременно. Это приводит к ряду вызовов: от синхронизации контента до оптимизации рекламного кликабельности. Наша мотивация заключается в разработке модели, которая адаптируется к таким сложным сценариям, обеспечивая эффективную персонализацию и минимальное количество отказов. ## Метод Мы предлагаем Multi-User Contextual Cascading Bandit (MCCB), новую комбинаторную модель бандитов. MCCB применяется для сценариев, где много пользователей взаимодействуют с последовательно отображаемыми элементами. Она включает три ключевых составляющих: (i) **каскадная обратная связь**, где пользователи просматривают элементы последовательно и останавливаются на первом удовлетворительном; (ii) **параллельные контекстные сессии**, позволяющие эффективно исследовать варианты; и (iii) **нейтрализация регрессии к среднему**, учитывающая уникальные особенности каждого элемента. Для решения этой задачи мы предлагаем два алгоритма: 1. **Upper Confidence Bound with Backward Planning (UCBBP)**: эта стратегия использует доверительные интервалы для оценки возможных выбираемых элементов, при этом учитывает последствия решений в прошлом. 2. **Active Upper Confidence Bound with Backward Planning (AUCBBP)**: эта модификация улучшает эффективность системы при увеличении количества пользователей, обеспечивая более высокую скорость оптимизации. Мы доказываем, что оба алгоритма обладают эффективными теоретическими гарантиями на регрет, которые зависят от количества эпизодов $T$, шагов в сессии $H$, и количества контекстов $N$. ## Результаты Мы проводили ряд экспериментов, используя синтетические данные и реальные данные рекламных кампаний. Наши результаты показывают, что: - UCBBP показывает стабильную производительность, минимизируя отказы и улучшая кликабельность в случае небольшого числа пользователей. - AUCBBP демонстрирует значительную эффективность при увеличении числа пользователей, чтобы уменьшить количество отказов и увеличить интерес к рекламе. - Оба алгоритма показали более эффективность по сравнению с базовыми методами в сценариях, где контекстный выбор и многопользовательские сценарии играют ключевую роль. ## Значимость Мы видим приложение нашей модели в различных областях, включая персонализацию контента, онлайн-

Abstract

We introduce a Multi-User Contextual Cascading Bandit model, a new combinatorial bandit framework that captures realistic online advertising scenarios where multiple users interact with sequentially displayed items simultaneously. Unlike classical contextual bandits, MCCB integrates three key structural elements: (i) cascading feedback based on sequential arm exposure, (ii) parallel context sessions enabling selective exploration, and (iii) heterogeneous arm-level rewards. We first propose Upper Confidence Bound with Backward Planning (UCBBP), a UCB-style algorithm tailored to this setting, and prove that it achieves a regret bound of $\widetilde{O}(\sqrt{THN})$ over $T$ episodes, $H$ session steps, and $N$ contexts per episode. Motivated by the fact that many users interact with the system simultaneously, we introduce a second algorithm, termed Active Upper Confidence Bound with Backward Planning (AUCBBP), which shows a strict efficiency improvement in context scaling, i.e., user scaling, with a regret bound of $\widetilde{O}(\sqrt{T+HN})$. We validate our theoretical findings via numerical experiments, demonstrating the empirical effectiveness of both algorithms under various settings.

Ссылки и действия