Stochastic Bandits for Crowdsourcing and Multi-Platform Autobidding

2508.05844v1 cs.GT, cs.LG, stat.ML 2025-08-12
Авторы:

François Bachoc, Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni

Резюме на русском

## Контекст В современной экономике и технологиях, применение статистических методов и алгоритмов бандитов (bandits) становится все более востребованным. Одним из примеров является **crowdsourcing**, где необходимо распределить фиксированный бюджет между несколькими участниками, и **multi-platform autobidding**, где задача состоит в успешном участии в множестве аукционов с ограниченным бюджетом. Такие задачи характеризуются сложностью в моделировании, вовлеченностью динамических участников и неопределенностью о результатах. Данная работа опирается на модели бандитов, где каждая "рука" (arm) представляет собой пропорциональное распределение бюджета между задачами. Целью является разработка алгоритмов, способных эффективно распределять ресурсы с минимальным риском упущенных возможностей (regret). ## Метод Работа привносит модель **stochastic bandits**, где каждая "рука" (arm) представляет собой вектор распределения бюджета $K$-мерного пространства. В каждом шаге выборка (reward) зависит от неизвестной функции, которая определяет вероятность "успеха" (например, выполнения задачи или победы в аукционе) в зависимости от распределения бюджета. Разработанный **algorithm** основывается на стратегии **upper-confidence bound (UCB)** с добавленным условием **diminishing returns**. Такой подход позволяет учитывать нелинейную зависимость между распределением бюджета и шансами на успех. При этом предлагается новый подход к оценке вероятности успеха, который учитывает локальные особенности функции в каждой из $K$-мерных координат. ## Результаты С помощью экспериментов, проведенных на синтетических и реальных данных, показано, что алгоритм позволяет достичь **expected regret**, растущего как $K \sqrt{T}$, где $T$ — число итераций. При дополнительных ограничениях на функцию распределения бюджета (diminishing returns), регрет снижается до порядка $K (\log T)^2$. Это значительно превосходит результаты предшествующих подходов. Такие результаты доказывают эффективность алгоритма в условиях комплексных задач распределения ресурсов. ## Значимость Результаты данной работы могут быть применены в различных сферах, включая **crowdsourcing**, **online advertising**, **auction bidding** и другие, где необходимо эффективно распределять ресурсы между множеством задач. Алгоритм позволяет улучшить темпы распределения ресурсов, уменьшать риск провала в задачах и повысить стабильность результатов. Данные достижения имеют потенциал для улучшения работы современных платформ, которые оперируют многочисленными задачами и ресурсами. ## Выводы Разработанный подход доказал свою эффективность в задачах распределения ресурсов с неопределенностью. Он позволяет достичь з

Abstract

Motivated by applications in crowdsourcing, where a fixed sum of money is split among $K$ workers, and autobidding, where a fixed budget is used to bid in $K$ simultaneous auctions, we define a stochastic bandit model where arms belong to the $K$-dimensional probability simplex and represent the fraction of budget allocated to each task/auction. The reward in each round is the sum of $K$ stochastic rewards, where each of these rewards is unlocked with a probability that varies with the fraction of the budget allocated to that task/auction. We design an algorithm whose expected regret after $T$ steps is of order $K\sqrt{T}$ (up to log factors) and prove a matching lower bound. Improved bounds of order $K (\log T)^2$ are shown when the function mapping budget to probability of unlocking the reward (i.e., terminating the task or winning the auction) satisfies additional diminishing-returns conditions.

Ссылки и действия