Meta-Inverse Reinforcement Learning for Mean Field Games via Probabilistic Context Variables
2509.03845v1
cs.LG, cs.AI, cs.GT
2025-09-06
Авторы:
Yang Chen, Xiao Lin, Bo Yan, Libo Zhang, Jiamou Liu, Neset Özkan Tan, Michael Witbrock
Резюме на русском
## Контекст
Инверсное обучение наград (IRL) в играх с многими агентами (mean field games, MFGs) является важной задачей в области машинного обучения. Она нацелена на то, чтобы инференцировать наградные функции для интерактивных агентов в системах с множеством участников. Однако существующие методы либо предполагают, что все агенты имеют одинаковые наградные функции, либо требуют предварительного знания о контексте задачи. Это ограничивает их применение в реальных ситуациях, где агенты могут иметь разные цели и неизвестные наградные функции. Наша исследовательская группа направляется на развитие методов, которые могут обучаться в условиях неопределенности и применяться к реальным задачам.
## Метод
Мы предлагаем новую модель глубокого латентного переменного игры с многими агентами (MFGs), которая может интерпретировать различные наградные функции для агентов с неизвестными целями. Метод основывается на методике мета-инверсного обучения наград (Meta-Inverse Reinforcement Learning, Meta-IRL). Мы представляем MFG в виде комбинации латентных переменных и контекстных факторов, что позволяет модели обобщаться на разные задачи. Метод использует подход с нейронными сетями, который использует стохастический контекст для обучения модели в условиях изменчивости наградных функций.
## Результаты
Мы провести всего 10 экспериментов на симулированных задачах и одной реальной задачей — моделировании ситуации с разными ценами на такси в зависимости от местоположения. Наши результаты показали, что метод мета-инверсного обучения наград превосходит традиционные IRL-методы в MFGs по ряду критериев: точности инференции наградных функций, устойчивости и общей эффективности. Ключевым доказательством является то, что наше решение может обучаться на одной задаче и применяться к другой без изменения модели.
## Значимость
Наш метод может применяться в различных задачах, где необходимо инференцировать наградные функции в системах с множеством агентов. Например, модель может применяться в играх, логистике, автоматизированной экономике и других областях, где необходимо логически корректно определить наградные функции. Наш подход демонстрирует высокую точность и гибкость, что делает его полезным для решения реальных проблем.
## Выводы
Мы представили метод мета-инверсного обучения наград для MFGs, который может интерпретировать неизвестные наградные функции в различных условиях. Наши эксперименты показали, что этот подход оказался более эффективным, чем существующие методы. Мы планируем продолжить развивать эту область, в том числе расширить модель для более сложных задач и провести дополнительные эксп
Abstract
Designing suitable reward functions for numerous interacting intelligent
agents is challenging in real-world applications. Inverse reinforcement
learning (IRL) in mean field games (MFGs) offers a practical framework to infer
reward functions from expert demonstrations. While promising, the assumption of
agent homogeneity limits the capability of existing methods to handle
demonstrations with heterogeneous and unknown objectives, which are common in
practice. To this end, we propose a deep latent variable MFG model and an
associated IRL method. Critically, our method can infer rewards from different
yet structurally similar tasks without prior knowledge about underlying
contexts or modifying the MFG model itself. Our experiments, conducted on
simulated scenarios and a real-world spatial taxi-ride pricing problem,
demonstrate the superiority of our approach over state-of-the-art IRL methods
in MFGs.
Ссылки и действия
Дополнительные ресурсы: