📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The Hidden Game Problem

2025-10-08

Авторы:

Gon Buzaglo, Noah Golowich, Elad Hazan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper investigates a class of games with large strategy spaces, motivated by challenges in AI alignment and language games. We introduce the hidden game problem, where for each player, an unknown subset of strategies consistently yields higher rewards compared to the rest. The central question is whether efficient regret minimization algorithms can be designed to discover and exploit such hidden structures, leading to equilibrium in these subgames while maintaining rationality in general. W...

ID: 2510.03845v1 cs.AI, cs.GT, cs.LG, stat.ML

arXiv PDF

📄 Stochastic Bandits for Crowdsourcing and Multi-Platform Autobidding

2025-08-12

Авторы:

François Bachoc, Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni

## Контекст В современной экономике и технологиях, применение статистических методов и алгоритмов бандитов (bandits) становится все более востребованным. Одним из примеров является **crowdsourcing**, где необходимо распределить фиксированный бюджет между несколькими участниками, и **multi-platform autobidding**, где задача состоит в успешном участии в множестве аукционов с ограниченным бюджетом. Такие задачи характеризуются сложностью в моделировании, вовлеченностью динамических участников и неопределенностью о результатах. Данная работа опирается на модели бандитов, где каждая "рука" (arm) представляет собой пропорциональное распределение бюджета между задачами. Целью является разработка алгоритмов, способных эффективно распределять ресурсы с минимальным риском упущенных возможностей (regret). ## Метод Работа привносит модель **stochastic bandits**, где каждая "рука" (arm) представляет собой вектор распределения бюджета $K$-мерного пространства. В каждом шаге выборка (reward) зависит от неизвестной функции, которая определяет вероятность "успеха" (например, выполнения задачи или победы в аукционе) в зависимости от распределения бюджета. Разработанный **algorithm** основывается на стратегии **upper-confidence bound (UCB)** с добавленным условием **diminishing returns**. Такой подход позволяет учитывать нелинейную зависимость между распределением бюджета и шансами на успех. При этом предлагается новый подход к оценке вероятности успеха, который учитывает локальные особенности функции в каждой из $K$-мерных координат. ## Результаты С помощью экспериментов, проведенных на синтетических и реальных данных, показано, что алгоритм позволяет достичь **expected regret**, растущего как $K \sqrt{T}$, где $T$ — число итераций. При дополнительных ограничениях на функцию распределения бюджета (diminishing returns), регрет снижается до порядка $K (\log T)^2$. Это значительно превосходит результаты предшествующих подходов. Такие результаты доказывают эффективность алгоритма в условиях комплексных задач распределения ресурсов. ## Значимость Результаты данной работы могут быть применены в различных сферах, включая **crowdsourcing**, **online advertising**, **auction bidding** и другие, где необходимо эффективно распределять ресурсы между множеством задач. Алгоритм позволяет улучшить темпы распределения ресурсов, уменьшать риск провала в задачах и повысить стабильность результатов. Данные достижения имеют потенциал для улучшения работы современных платформ, которые оперируют многочисленными задачами и ресурсами. ## Выводы Разработанный подход доказал свою эффективность в задачах распределения ресурсов с неопределенностью. Он позволяет достичь з

Annotation:

Motivated by applications in crowdsourcing, where a fixed sum of money is split among $K$ workers, and autobidding, where a fixed budget is used to bid in $K$ simultaneous auctions, we define a stochastic bandit model where arms belong to the $K$-dimensional probability simplex and represent the fraction of budget allocated to each task/auction. The reward in each round is the sum of $K$ stochastic rewards, where each of these rewards is unlocked with a probability that varies with the fraction ...

ID: 2508.05844v1 cs.GT, cs.LG, stat.ML

arXiv PDF