Achieving Limited Adaptivity for Multinomial Logistic Bandits
2508.03072v1
cs.LG, stat.ML
2025-08-09
Авторы:
Sukruta Prakash Midigeshi, Tanmay Goyal, Gaurav Sinha
Резюме на русском
## Контекст
Multinomial Logistic Bandits (MLBs) являются мощным инструментом для моделирования проблем с несколькими возможными выводами. В этой модели каждое решение соответствует многочисленным вариантам результатов, описываемым функцией многочленной логистики. Несмотря на их потенциал, существуют практические задачи, требующие разработки алгоритмов с ограниченной адаптивностью. Ограниченная адаптивность означает, что алгоритм может обновить свою стратегию всего $M$ раз в ходе взаимодействия с системой. Это особенно актуально в ситуациях, когда постоянное изменение стратегии либо затруднительно, либо неэффективно. Существующие решения, хотя и достигают лучших результатов в отношении ошибки и эффективности вычислений, часто лишаются возможности управления числом политических обновлений. Наша мотивация заключается в разработке алгоритмов, которые бы оптимально сбалансировали эффективность и ограниченную адаптивность.
## Метод
Мы разрабатываем два алгоритма, B-MNL-CB и RS-MNL, которые работают в батче и редко переключаются, соответственно. В первом случае, $M$ обновлений стратегии выбираются заранее и не могут изменяться в процессе работы. Во втором случае, $M$ может быть выбрано адаптивно в процессе, что дает большую гибкость. Основная идея заключается в использовании формализма распределенных оптимальных дизайнов, адаптированного к многочленной логистике. Для B-MNL-CB проводится анализ выбора контекста, который позволяет достичь оптимального регрета $\tilde{O}(\sqrt{T})$, при условии, что контексты генерируются стохастически и $M = \Omega(\log \log T)$. Для RS-MNL производится анализ вудущему случаю с адверсарскими контекстами, позволяющем достичь $\tilde{O}(\sqrt{T})$ в среднем, при $M = \tilde{O}(\log T)$.
## Результаты
Мы проводим эксперименты с использованием синтетических и реальных данных, сравнивая наши алгоритмы с современными алгоритмами. Результаты показывают, что B-MNL-CB и RS-MNL не только соответствуют теоретическим ожиданиям, но и выигрывают в практических сценариях, даже когда их число обновлений ограничено. Например, B-MNL-CB показывает существенное преимущество в ситуациях с синтетическими контекстами, где генерируются свойственные нормальному распределению. Оба алгоритма демонстрируют высокую эффективность в сценариях с реальными данными, таких как моделирование клиентских предпочтений в коммерческих системах рекомендаций.
## Значимость
Наши алгоритмы могут быть применены в различных приложениях, таких как рекомендательные системы, моделирование финансовых рынков и эк
Abstract
Multinomial Logistic Bandits have recently attracted much attention due to
their ability to model problems with multiple outcomes. In this setting, each
decision is associated with many possible outcomes, modeled using a multinomial
logit function. Several recent works on multinomial logistic bandits have
simultaneously achieved optimal regret and computational efficiency. However,
motivated by real-world challenges and practicality, there is a need to develop
algorithms with limited adaptivity, wherein we are allowed only $M$ policy
updates. To address these challenges, we present two algorithms, B-MNL-CB and
RS-MNL, that operate in the batched and rarely-switching paradigms,
respectively. The batched setting involves choosing the $M$ policy update
rounds at the start of the algorithm, while the rarely-switching setting can
choose these $M$ policy update rounds in an adaptive fashion. Our first
algorithm, B-MNL-CB extends the notion of distributional optimal designs to the
multinomial setting and achieves $\tilde{O}(\sqrt{T})$ regret assuming the
contexts are generated stochastically when presented with $\Omega(\log \log T)$
update rounds. Our second algorithm, RS-MNL works with adversarially generated
contexts and can achieve $\tilde{O}(\sqrt{T})$ regret with $\tilde{O}(\log T)$
policy updates. Further, we conducted experiments that demonstrate that our
algorithms (with a fixed number of policy updates) are extremely competitive
(and often better) than several state-of-the-art baselines (which update their
policy every round), showcasing the applicability of our algorithms in various
practical scenarios.
Ссылки и действия
Дополнительные ресурсы: