📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Robert Bredereck, Eva Deltl, Leon Kellerhals, Jannik Peters
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study core stability in non-centroid clustering under the max-loss objective, where each agent's loss is the maximum distance to other members of their cluster. We prove that for all $k\geq 3$ there exist metric instances with $n\ge 9$ agents, with $n$ divisible by $k$, for which no clustering lies in the $α$-core for any $α<2^{\frac{1}{5}}\sim 1.148$. The bound is tight for our construction. Using a computer-aided proof, we also identify a two-dimensional Euclidean point set whose associated...
📄 Fair-GNE : Generalized Nash Equilibrium-Seeking Fairness in Multiagent Healthcare Automation
2025-11-20Авторы:
Promise Ekpo, Saesha Agarwal, Felix Grimm, Lekan Molu, Angelique Taylor
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Enforcing a fair workload allocation among multiple agents tasked to achieve an objective in learning enabled demand side healthcare worker settings is crucial for consistent and reliable performance at runtime. Existing multi-agent reinforcement learning (MARL) approaches steer fairness by shaping reward through post hoc orchestrations, leaving no certifiable self-enforceable fairness that is immutable by individual agents at runtime. Contextualized within a setting where each agent shares reso...
Авторы:
Hang Xu, Kai Li, Haobo Fu, Qiang Fu, Junliang Xing, Jian Cheng
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Counterfactual regret minimization (CFR) is a family of algorithms for effectively solving imperfect-information games. To enhance CFR's applicability in large games, researchers use neural networks to approximate its behavior. However, existing methods are mainly based on vanilla CFR and struggle to effectively integrate more advanced CFR variants. In this work, we propose an efficient model-free neural CFR algorithm, overcoming the limitations of existing methods in approximating advanced CFR ...
Авторы:
Rui Ai, Yuqi Pan, David Simchi-Levi, Milind Tambe, Haifeng Xu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
With the rapid progress of multi-agent large language model (LLM) reasoning,
how to effectively aggregate answers from multiple LLMs has emerged as a
fundamental challenge. Standard majority voting treats all answers equally,
failing to consider latent heterogeneity and correlation across models. In this
work, we design two new aggregation algorithms called Optimal Weight (OW) and
Inverse Surprising Popularity (ISP), leveraging both first-order and
second-order information. Our theoretical analy...
Авторы:
Narada Maugin, Tristan Cazenave
## Контекст
Область исследования — искусственный интеллект (ИИ) в играх, специально в покере. Игры, которым необходима стратегия и интеллектуальное решение, часто создают сложные задачи для ИИ. Одним из таких видов игр является покер, особенно в формате Spin & Go — трехпользовательская версия, где игрокам требуется решать сложные эквариумумные задачи в неидеальной информационной среде. Традиционное решение — Counterfactual Regret Minimization (CFR) — имеет высокую сложность вычислений при увеличении числа участников. Более того, в играх с тремя или более игроками Nash equilibrium не гарантирует выигрыша. Эти ограничения подчеркивают необходимость развития новых подходов, особенно в популярных турнирных форматах. Возникает мотивация для исследования новых методов, включая использование больших языковых моделей (LLM).
## Метод
SpinGPT разработан в двух этапах. На первом этапе использовался **Supervised Fine-Tuning** на базе 320 тысяч высокостактных решений экспертов. На втором этапе применено **Reinforcement Learning** с использованием 270 тысяч генерируемых техническими средами решений. Это позволило модели SpinGPT оптимизировать свои решения на основе двух разных подходов: 1) соблюдения лучших традиционных стратегий и 2) учет неопределенности игровых ситуаций. Такая двухэтапная архитектура позволяет SpinGPT решать задачи в Spin & Go, где требуется быстрая адаптация и точное решение в условиях неидеальной информации.
## Результаты
В результате выполнения SpinGPT совпадает с решениями стандартных сред (solver) в 78% случаев (tolerant accuracy). Это указывает на высокую точность модели в соблюдении оптимальных стратегий. Также SpinGPT демонстрирует выигрышную стратегию в голодающих технических боях (heads-up), где он показывает результат +13.4 +/- 12.9 BB/100 (условия: 30 тысяч рук, 95% доверительный интервал). Эти результаты показывают, что SpinGPT эффективно решает задачи в Spin & Go и может стать новым поводом для исследований в области ИИ в покере.
## Значимость
Потенциальное применение SpinGPT распространяется на большое количество активных игровых форматов, включая покер в турнирных форматах. Избавление модели от некоторых ограничений CFR делает ее мощным инструментом для развития ИИ в покере. В частности, SpinGPT может использоваться в турнирах, где требуется быстрое решение задач в условиях неидеальной информации. Это может привести к новым возможностям для стратегического подхода в игре и даже к развитию новых методов поиска оптимальных решений в других играх с неопределенностью.
## Выводы
Исследование SpinGPT показало, что большие языковые модели могут б
Annotation:
The Counterfactual Regret Minimization (CFR) algorithm and its variants have
enabled the development of pokerbots capable of beating the best human players
in heads-up (1v1) cash games and competing with them in six-player formats.
However, CFR's computational complexity rises exponentially with the number of
players. Furthermore, in games with three or more players, following Nash
equilibrium no longer guarantees a non-losing outcome. These limitations, along
with others, significantly restrict...
📄 From Leiden to Pleasure Island: The Constant Potts Model for Community Detection as a Hedonic Game
2025-09-06Авторы:
Lucas Lopes Felipe, Konstantin Avrachenkov, Daniel Sadoc Menasche
#### Контекст
Community detection является одной из основных задач в области data science, состоящей в разбиении узлов графа на автономные сообщества. Одним из популярных подходов является Constant Potts Model (CPM). Однако, традиционный анализ CPM не учитывал его теоретическую базу в области теории игр, что чревато многочисленными проблемами. Наша мотивация заключается в разработке модели, которая объединяет эффективность, стабильность и точность в решении задачи community detection.
#### Метод
Мы представили CPM как hedonic game, в которой каждый узел графа является агентом, а его пользовательскую функцию определяется разницей между глобальным хэммитовским потенциалом и локальными утилитами каждого узла. Мы показали, что CPM может быть эффективно решено с помощью better-response dynamics, которые приводят к равновесному разбиению в полиномиальное время. Для характеристики стабильности разбиения, мы ввели два критерия: строгий, определяющий говорительность каждого узла в сообществе, и любезный, который учитывает весомую комбинацию обаяния и отвращения в рамках каждого сообщества.
#### Результаты
Мы провели ряд экспериментов на различных сетях для проверки работы нашего подхода. Для этого использовались многочисленные данные с разным размером и степенью сложности. В результате, CPM, представленный в виде hedonic game, показал себя как эффективный и точный подход к community detection, в том числе в сценариях community tracking, где начальное разбиение использовалось для инициализации Leiden-алгоритма.
#### Значимость
Наш метод может быть применен в различных областях, где требуется разбиение данных на автономные сообщества, например, в social network analysis, bioinformatics и других. Он предлагает значительные преимущества в скорости работы, точности и устойчивости к помехам в данных. Это делает нашу модель полезной для практических задач, где важно найти точные и стабильные разбиения.
#### Выводы
Мы развили новый подход к CPM с помощью игровой теории, показав его эффективность и точность в различных сценариях. Наш результат открывает новые возможности для развития и применения CPM в различных аспектах data science. Будущие исследования будут сфокусированы на улучшении стабильности разбиения и его применении в более сложных сетях.
Annotation:
Community detection is one of the fundamental problems in data science which
consists of partitioning nodes into disjoint communities. We present a
game-theoretic perspective on the Constant Potts Model (CPM) for partitioning
networks into disjoint communities, emphasizing its efficiency, robustness, and
accuracy. Efficiency: We reinterpret CPM as a potential hedonic game by
decomposing its global Hamiltonian into local utility functions, where the
local utility gain of each agent matches the co...
📄 Meta-Inverse Reinforcement Learning for Mean Field Games via Probabilistic Context Variables
2025-09-06Авторы:
Yang Chen, Xiao Lin, Bo Yan, Libo Zhang, Jiamou Liu, Neset Özkan Tan, Michael Witbrock
## Контекст
Инверсное обучение наград (IRL) в играх с многими агентами (mean field games, MFGs) является важной задачей в области машинного обучения. Она нацелена на то, чтобы инференцировать наградные функции для интерактивных агентов в системах с множеством участников. Однако существующие методы либо предполагают, что все агенты имеют одинаковые наградные функции, либо требуют предварительного знания о контексте задачи. Это ограничивает их применение в реальных ситуациях, где агенты могут иметь разные цели и неизвестные наградные функции. Наша исследовательская группа направляется на развитие методов, которые могут обучаться в условиях неопределенности и применяться к реальным задачам.
## Метод
Мы предлагаем новую модель глубокого латентного переменного игры с многими агентами (MFGs), которая может интерпретировать различные наградные функции для агентов с неизвестными целями. Метод основывается на методике мета-инверсного обучения наград (Meta-Inverse Reinforcement Learning, Meta-IRL). Мы представляем MFG в виде комбинации латентных переменных и контекстных факторов, что позволяет модели обобщаться на разные задачи. Метод использует подход с нейронными сетями, который использует стохастический контекст для обучения модели в условиях изменчивости наградных функций.
## Результаты
Мы провести всего 10 экспериментов на симулированных задачах и одной реальной задачей — моделировании ситуации с разными ценами на такси в зависимости от местоположения. Наши результаты показали, что метод мета-инверсного обучения наград превосходит традиционные IRL-методы в MFGs по ряду критериев: точности инференции наградных функций, устойчивости и общей эффективности. Ключевым доказательством является то, что наше решение может обучаться на одной задаче и применяться к другой без изменения модели.
## Значимость
Наш метод может применяться в различных задачах, где необходимо инференцировать наградные функции в системах с множеством агентов. Например, модель может применяться в играх, логистике, автоматизированной экономике и других областях, где необходимо логически корректно определить наградные функции. Наш подход демонстрирует высокую точность и гибкость, что делает его полезным для решения реальных проблем.
## Выводы
Мы представили метод мета-инверсного обучения наград для MFGs, который может интерпретировать неизвестные наградные функции в различных условиях. Наши эксперименты показали, что этот подход оказался более эффективным, чем существующие методы. Мы планируем продолжить развивать эту область, в том числе расширить модель для более сложных задач и провести дополнительные эксп
Annotation:
Designing suitable reward functions for numerous interacting intelligent
agents is challenging in real-world applications. Inverse reinforcement
learning (IRL) in mean field games (MFGs) offers a practical framework to infer
reward functions from expert demonstrations. While promising, the assumption of
agent homogeneity limits the capability of existing methods to handle
demonstrations with heterogeneous and unknown objectives, which are common in
practice. To this end, we propose a deep latent...