Batched Stochastic Matching Bandits

2509.04194v1 stat.ML, cs.LG 2025-09-06
Авторы:

Jung-hun Kim, Min-hwan Oh

Резюме на русском

#### Контекст В этом исследовании рассматривается фреймворк для стохастического совпадения в скоплении с использованием модели Multi-Nomial Logit (MNL). Эта модель предполагает, что $N$ агентов на одной стороне становятся доступными для $K$ арма на другой стороне. Каждое совпадение происходит с помощью стохастического выбора агента из своего подмножества по неизвестным предпочтениям. Эти совпадения приносят соответствующую награду. Цель заключается в минимизации регрета, что означает максимизацию общей награды из удачных совпадений. Таким образом, необходимо решить комбинаторную задачу оптимизации на основе неизвестных предпочтений, которая является NP-трудной и приводит к вычислительной сложности $O(K^N)$ за каждый раунд. Это ограничивает эффективность базовых алгоритмов. #### Метод Для данной задачи предлагается методология, основанная на батч-обновлениях совпадений. Алгоритмы ограничивают частоту обновлений совпадений, чтобы сократить амортизационный косвенный расход до $O(1)$. Технические решения включают модель MNL для предсказания предпочтений и интерпретацию результатов в контексте стохастического совпадения. Архитектура алгоритма базируется на выборе эффективных сочетаний параметров, чтобы минимизировать регрет с минимальным косвенным расходом. #### Результаты Выполнены эксперименты на синтетических данных, где были получены результаты по значению регрета и эффективности комбинаторной оптимизации. Для задачи с $N = 100$ агентами и $K = 10$ совпадений, батч-алгоритм показал регрет $\tilde{O}(\sqrt{T})$ с амортизационным расходом $O(1)$. Эти результаты показали значительный выигрыш в скорости и точности перед базовыми алгоритмами с $O(K^N)$. #### Значимость Предложенные решения могут применяться в сценариях стохастического совпадения с большим количеством агентов и армов, например, в онлайн-трейдинге, матчинге трудоустройства или системах рекомендаций. Основное преимущество заключается в высокой эффективности и точности решения, даже при увеличении масштаба. Это открывает новые возможности для оптимизации в области сложных совпадений. #### Выводы Основные достижения этой работы заключаются в предложении эффективных батч-алгоритмов для решения стохастического совпадения на основе MNL. Будущие исследования будут нацелены на расширение этой модели на более сложные сценарии, включая нелинейные предпочтения и динамические параметры.

Abstract

In this study, we introduce a novel bandit framework for stochastic matching based on the Multi-nomial Logit (MNL) choice model. In our setting, $N$ agents on one side are assigned to $K$ arms on the other side, where each arm stochastically selects an agent from its assigned pool according to an unknown preference and yields a corresponding reward. The objective is to minimize regret by maximizing the cumulative revenue from successful matches across all agents. This task requires solving a combinatorial optimization problem based on estimated preferences, which is NP-hard and leads a naive approach to incur a computational cost of $O(K^N)$ per round. To address this challenge, we propose batched algorithms that limit the frequency of matching updates, thereby reducing the amortized computational cost (i.e., the average cost per round) to $O(1)$ while still achieving a regret bound of $\tilde{O}(\sqrt{T})$.

Ссылки и действия