Stochastic Bandits for Crowdsourcing and Multi-Platform Autobidding
2508.05844v1
cs.GT, cs.LG, stat.ML
2025-08-12
Авторы:
François Bachoc, Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni
Резюме на русском
## Контекст
В современной экономике и технологиях, применение статистических методов и алгоритмов бандитов (bandits) становится все более востребованным. Одним из примеров является **crowdsourcing**, где необходимо распределить фиксированный бюджет между несколькими участниками, и **multi-platform autobidding**, где задача состоит в успешном участии в множестве аукционов с ограниченным бюджетом. Такие задачи характеризуются сложностью в моделировании, вовлеченностью динамических участников и неопределенностью о результатах. Данная работа опирается на модели бандитов, где каждая "рука" (arm) представляет собой пропорциональное распределение бюджета между задачами. Целью является разработка алгоритмов, способных эффективно распределять ресурсы с минимальным риском упущенных возможностей (regret).
## Метод
Работа привносит модель **stochastic bandits**, где каждая "рука" (arm) представляет собой вектор распределения бюджета $K$-мерного пространства. В каждом шаге выборка (reward) зависит от неизвестной функции, которая определяет вероятность "успеха" (например, выполнения задачи или победы в аукционе) в зависимости от распределения бюджета. Разработанный **algorithm** основывается на стратегии **upper-confidence bound (UCB)** с добавленным условием **diminishing returns**. Такой подход позволяет учитывать нелинейную зависимость между распределением бюджета и шансами на успех. При этом предлагается новый подход к оценке вероятности успеха, который учитывает локальные особенности функции в каждой из $K$-мерных координат.
## Результаты
С помощью экспериментов, проведенных на синтетических и реальных данных, показано, что алгоритм позволяет достичь **expected regret**, растущего как $K \sqrt{T}$, где $T$ — число итераций. При дополнительных ограничениях на функцию распределения бюджета (diminishing returns), регрет снижается до порядка $K (\log T)^2$. Это значительно превосходит результаты предшествующих подходов. Такие результаты доказывают эффективность алгоритма в условиях комплексных задач распределения ресурсов.
## Значимость
Результаты данной работы могут быть применены в различных сферах, включая **crowdsourcing**, **online advertising**, **auction bidding** и другие, где необходимо эффективно распределять ресурсы между множеством задач. Алгоритм позволяет улучшить темпы распределения ресурсов, уменьшать риск провала в задачах и повысить стабильность результатов. Данные достижения имеют потенциал для улучшения работы современных платформ, которые оперируют многочисленными задачами и ресурсами.
## Выводы
Разработанный подход доказал свою эффективность в задачах распределения ресурсов с неопределенностью. Он позволяет достичь з
Abstract
Motivated by applications in crowdsourcing, where a fixed sum of money is
split among $K$ workers, and autobidding, where a fixed budget is used to bid
in $K$ simultaneous auctions, we define a stochastic bandit model where arms
belong to the $K$-dimensional probability simplex and represent the fraction of
budget allocated to each task/auction. The reward in each round is the sum of
$K$ stochastic rewards, where each of these rewards is unlocked with a
probability that varies with the fraction of the budget allocated to that
task/auction. We design an algorithm whose expected regret after $T$ steps is
of order $K\sqrt{T}$ (up to log factors) and prove a matching lower bound.
Improved bounds of order $K (\log T)^2$ are shown when the function mapping
budget to probability of unlocking the reward (i.e., terminating the task or
winning the auction) satisfies additional diminishing-returns conditions.
Ссылки и действия
Дополнительные ресурсы: