Meta-Inverse Reinforcement Learning for Mean Field Games via Probabilistic Context Variables

2509.03845v1 cs.LG, cs.AI, cs.GT 2025-09-06

Авторы:

Yang Chen, Xiao Lin, Bo Yan, Libo Zhang, Jiamou Liu, Neset Özkan Tan, Michael Witbrock

Резюме на русском

## Контекст Инверсное обучение наград (IRL) в играх с многими агентами (mean field games, MFGs) является важной задачей в области машинного обучения. Она нацелена на то, чтобы инференцировать наградные функции для интерактивных агентов в системах с множеством участников. Однако существующие методы либо предполагают, что все агенты имеют одинаковые наградные функции, либо требуют предварительного знания о контексте задачи. Это ограничивает их применение в реальных ситуациях, где агенты могут иметь разные цели и неизвестные наградные функции. Наша исследовательская группа направляется на развитие методов, которые могут обучаться в условиях неопределенности и применяться к реальным задачам. ## Метод Мы предлагаем новую модель глубокого латентного переменного игры с многими агентами (MFGs), которая может интерпретировать различные наградные функции для агентов с неизвестными целями. Метод основывается на методике мета-инверсного обучения наград (Meta-Inverse Reinforcement Learning, Meta-IRL). Мы представляем MFG в виде комбинации латентных переменных и контекстных факторов, что позволяет модели обобщаться на разные задачи. Метод использует подход с нейронными сетями, который использует стохастический контекст для обучения модели в условиях изменчивости наградных функций. ## Результаты Мы провести всего 10 экспериментов на симулированных задачах и одной реальной задачей — моделировании ситуации с разными ценами на такси в зависимости от местоположения. Наши результаты показали, что метод мета-инверсного обучения наград превосходит традиционные IRL-методы в MFGs по ряду критериев: точности инференции наградных функций, устойчивости и общей эффективности. Ключевым доказательством является то, что наше решение может обучаться на одной задаче и применяться к другой без изменения модели. ## Значимость Наш метод может применяться в различных задачах, где необходимо инференцировать наградные функции в системах с множеством агентов. Например, модель может применяться в играх, логистике, автоматизированной экономике и других областях, где необходимо логически корректно определить наградные функции. Наш подход демонстрирует высокую точность и гибкость, что делает его полезным для решения реальных проблем. ## Выводы Мы представили метод мета-инверсного обучения наград для MFGs, который может интерпретировать неизвестные наградные функции в различных условиях. Наши эксперименты показали, что этот подход оказался более эффективным, чем существующие методы. Мы планируем продолжить развивать эту область, в том числе расширить модель для более сложных задач и провести дополнительные эксп

Abstract

Designing suitable reward functions for numerous interacting intelligent agents is challenging in real-world applications. Inverse reinforcement learning (IRL) in mean field games (MFGs) offers a practical framework to infer reward functions from expert demonstrations. While promising, the assumption of agent homogeneity limits the capability of existing methods to handle demonstrations with heterogeneous and unknown objectives, which are common in practice. To this end, we propose a deep latent variable MFG model and an associated IRL method. Critically, our method can infer rewards from different yet structurally similar tasks without prior knowledge about underlying contexts or modifying the MFG model itself. Our experiments, conducted on simulated scenarios and a real-world spatial taxi-ride pricing problem, demonstrate the superiority of our approach over state-of-the-art IRL methods in MFGs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Meta-Inverse Reinforcement Learning for Mean Field Games via Probabilistic Context Variables

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Deep (Predictive) Discounted Counterfactual Regret Minimization

Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information

SpinGPT: A Large-Language-Model Approach to Playing Poker Correctly

From Leiden to Pleasure Island: The Constant Potts Model for Community Detection...

Навигация