Symmetry-Guided Multi-Agent Inverse Reinforcement Learning

2509.08257v2 cs.RO, cs.AI 2025-09-12
Авторы:

Yongkai Tian, Yirong Qi, Xin Yu, Wenjun Wu, Jie Luo

Резюме на русском

Описание ## Контекст Многоагентная система — это система, в которой несколько агентов должны совместно решать задачи, обмениваясь информацией и действуя взаимодействием. Эти системы встречаются в большинстве современных технологий, например, в управлении роботскими системами, системах вождения автомобилей, системах роботов, сборных, и системах генерирующих текст на основе знаний. Одной из ключевых проблем в многоагентных системах является то, что их поведение зависит от того, как они определяют и выполняют свой приоритет. Это влияет на качество решений, которые они принимают, и может привести к ошибкам в поведении. Одним из главных проблемах в нейросетевых системах является то, что данные, используемые для обучения, часто не хватает, что приводит к проблемам в обучении. ## Метод Мы предлагаем методологию, которая включает в себя модель многоагентной инверсной реинфорсментной учебки (MIRL). Метод построен на основе симметрии в многоагентных системах. Мы разработали алгоритм, который может использовать симметрию в качестве дополнительной информации для улучшения точности предсказаний. Мы используем специальную архитектуру, которая позволяет восстанавливать не только реWARD-функции, но и соцальные структуры в многоагентных системах. Мы также используем адвертарную модель, которая позволяет улучшить модель действий агентов. ## Результаты Мы проводили эксперименты на нескольких сложных задачах, включая задачи с поведением роботов и системами с частичной наблюдаемостью. Мы сравнили нашу модель с другими моделями, которые также используют симметрию, и получили значительные улучшения в предсказании точности и качестве решений. Мы также проверили нашу модель на реальных физических многоробочных системах, подтвердив ее практическую эффективность. ## Значимость Наша модель может быть применена в большинстве видов многоагентных систем, включая системы управления роботами, системы вождения автомобилей, системы генерирования текста на основе знаний. Мы показали, что наш метод может улучшить качество решений, снизить потребление ресурсов и улучшить предсказания в системах с частичной наблюдаемостью. Это делает нашу модель полезной для разработки более эффективных систем вождения и систем управления подвижностью. ## Выводы Мы демонстрируем, что использование симметрии в многоагентных системах может привести к более точным предсказаниям и более эффективных методам для обучения. Мы также показали, что наш метод может быть применен в различных системах, от роботов до систем генерирования текста.

Abstract

In robotic systems, the performance of reinforcement learning depends on the rationality of predefined reward functions. However, manually designed reward functions often lead to policy failures due to inaccuracies. Inverse Reinforcement Learning (IRL) addresses this problem by inferring implicit reward functions from expert demonstrations. Nevertheless, existing methods rely heavily on large amounts of expert demonstrations to accurately recover the reward function. The high cost of collecting expert demonstrations in robotic applications, particularly in multi-robot systems, severely hinders the practical deployment of IRL. Consequently, improving sample efficiency has emerged as a critical challenge in multi-agent inverse reinforcement learning (MIRL). Inspired by the symmetry inherent in multi-agent systems, this work theoretically demonstrates that leveraging symmetry enables the recovery of more accurate reward functions. Building upon this insight, we propose a universal framework that integrates symmetry into existing multi-agent adversarial IRL algorithms, thereby significantly enhancing sample efficiency. Experimental results from multiple challenging tasks have demonstrated the effectiveness of this framework. Further validation in physical multi-robot systems has shown the practicality of our method.

Ссылки и действия