Achieving Limited Adaptivity for Multinomial Logistic Bandits

2508.03072v1 cs.LG, stat.ML 2025-08-09
Авторы:

Sukruta Prakash Midigeshi, Tanmay Goyal, Gaurav Sinha

Резюме на русском

## Контекст Multinomial Logistic Bandits (MLBs) являются мощным инструментом для моделирования проблем с несколькими возможными выводами. В этой модели каждое решение соответствует многочисленным вариантам результатов, описываемым функцией многочленной логистики. Несмотря на их потенциал, существуют практические задачи, требующие разработки алгоритмов с ограниченной адаптивностью. Ограниченная адаптивность означает, что алгоритм может обновить свою стратегию всего $M$ раз в ходе взаимодействия с системой. Это особенно актуально в ситуациях, когда постоянное изменение стратегии либо затруднительно, либо неэффективно. Существующие решения, хотя и достигают лучших результатов в отношении ошибки и эффективности вычислений, часто лишаются возможности управления числом политических обновлений. Наша мотивация заключается в разработке алгоритмов, которые бы оптимально сбалансировали эффективность и ограниченную адаптивность. ## Метод Мы разрабатываем два алгоритма, B-MNL-CB и RS-MNL, которые работают в батче и редко переключаются, соответственно. В первом случае, $M$ обновлений стратегии выбираются заранее и не могут изменяться в процессе работы. Во втором случае, $M$ может быть выбрано адаптивно в процессе, что дает большую гибкость. Основная идея заключается в использовании формализма распределенных оптимальных дизайнов, адаптированного к многочленной логистике. Для B-MNL-CB проводится анализ выбора контекста, который позволяет достичь оптимального регрета $\tilde{O}(\sqrt{T})$, при условии, что контексты генерируются стохастически и $M = \Omega(\log \log T)$. Для RS-MNL производится анализ вудущему случаю с адверсарскими контекстами, позволяющем достичь $\tilde{O}(\sqrt{T})$ в среднем, при $M = \tilde{O}(\log T)$. ## Результаты Мы проводим эксперименты с использованием синтетических и реальных данных, сравнивая наши алгоритмы с современными алгоритмами. Результаты показывают, что B-MNL-CB и RS-MNL не только соответствуют теоретическим ожиданиям, но и выигрывают в практических сценариях, даже когда их число обновлений ограничено. Например, B-MNL-CB показывает существенное преимущество в ситуациях с синтетическими контекстами, где генерируются свойственные нормальному распределению. Оба алгоритма демонстрируют высокую эффективность в сценариях с реальными данными, таких как моделирование клиентских предпочтений в коммерческих системах рекомендаций. ## Значимость Наши алгоритмы могут быть применены в различных приложениях, таких как рекомендательные системы, моделирование финансовых рынков и эк

Abstract

Multinomial Logistic Bandits have recently attracted much attention due to their ability to model problems with multiple outcomes. In this setting, each decision is associated with many possible outcomes, modeled using a multinomial logit function. Several recent works on multinomial logistic bandits have simultaneously achieved optimal regret and computational efficiency. However, motivated by real-world challenges and practicality, there is a need to develop algorithms with limited adaptivity, wherein we are allowed only $M$ policy updates. To address these challenges, we present two algorithms, B-MNL-CB and RS-MNL, that operate in the batched and rarely-switching paradigms, respectively. The batched setting involves choosing the $M$ policy update rounds at the start of the algorithm, while the rarely-switching setting can choose these $M$ policy update rounds in an adaptive fashion. Our first algorithm, B-MNL-CB extends the notion of distributional optimal designs to the multinomial setting and achieves $\tilde{O}(\sqrt{T})$ regret assuming the contexts are generated stochastically when presented with $\Omega(\log \log T)$ update rounds. Our second algorithm, RS-MNL works with adversarially generated contexts and can achieve $\tilde{O}(\sqrt{T})$ regret with $\tilde{O}(\log T)$ policy updates. Further, we conducted experiments that demonstrate that our algorithms (with a fixed number of policy updates) are extremely competitive (and often better) than several state-of-the-art baselines (which update their policy every round), showcasing the applicability of our algorithms in various practical scenarios.

Ссылки и действия