Batched Stochastic Matching Bandits
2509.04194v1
stat.ML, cs.LG
2025-09-06
Авторы:
Jung-hun Kim, Min-hwan Oh
Резюме на русском
#### Контекст
В этом исследовании рассматривается фреймворк для стохастического совпадения в скоплении с использованием модели Multi-Nomial Logit (MNL). Эта модель предполагает, что $N$ агентов на одной стороне становятся доступными для $K$ арма на другой стороне. Каждое совпадение происходит с помощью стохастического выбора агента из своего подмножества по неизвестным предпочтениям. Эти совпадения приносят соответствующую награду. Цель заключается в минимизации регрета, что означает максимизацию общей награды из удачных совпадений. Таким образом, необходимо решить комбинаторную задачу оптимизации на основе неизвестных предпочтений, которая является NP-трудной и приводит к вычислительной сложности $O(K^N)$ за каждый раунд. Это ограничивает эффективность базовых алгоритмов.
#### Метод
Для данной задачи предлагается методология, основанная на батч-обновлениях совпадений. Алгоритмы ограничивают частоту обновлений совпадений, чтобы сократить амортизационный косвенный расход до $O(1)$. Технические решения включают модель MNL для предсказания предпочтений и интерпретацию результатов в контексте стохастического совпадения. Архитектура алгоритма базируется на выборе эффективных сочетаний параметров, чтобы минимизировать регрет с минимальным косвенным расходом.
#### Результаты
Выполнены эксперименты на синтетических данных, где были получены результаты по значению регрета и эффективности комбинаторной оптимизации. Для задачи с $N = 100$ агентами и $K = 10$ совпадений, батч-алгоритм показал регрет $\tilde{O}(\sqrt{T})$ с амортизационным расходом $O(1)$. Эти результаты показали значительный выигрыш в скорости и точности перед базовыми алгоритмами с $O(K^N)$.
#### Значимость
Предложенные решения могут применяться в сценариях стохастического совпадения с большим количеством агентов и армов, например, в онлайн-трейдинге, матчинге трудоустройства или системах рекомендаций. Основное преимущество заключается в высокой эффективности и точности решения, даже при увеличении масштаба. Это открывает новые возможности для оптимизации в области сложных совпадений.
#### Выводы
Основные достижения этой работы заключаются в предложении эффективных батч-алгоритмов для решения стохастического совпадения на основе MNL. Будущие исследования будут нацелены на расширение этой модели на более сложные сценарии, включая нелинейные предпочтения и динамические параметры.
Abstract
In this study, we introduce a novel bandit framework for stochastic matching
based on the Multi-nomial Logit (MNL) choice model. In our setting, $N$ agents
on one side are assigned to $K$ arms on the other side, where each arm
stochastically selects an agent from its assigned pool according to an unknown
preference and yields a corresponding reward. The objective is to minimize
regret by maximizing the cumulative revenue from successful matches across all
agents. This task requires solving a combinatorial optimization problem based
on estimated preferences, which is NP-hard and leads a naive approach to incur
a computational cost of $O(K^N)$ per round. To address this challenge, we
propose batched algorithms that limit the frequency of matching updates,
thereby reducing the amortized computational cost (i.e., the average cost per
round) to $O(1)$ while still achieving a regret bound of $\tilde{O}(\sqrt{T})$.
Ссылки и действия
Дополнительные ресурсы: