LEED: A Highly Efficient and Scalable LLM-Empowered Expert Demonstrations Framework for Multi-Agent Reinforcement Learning

2509.14680v1 cs.MA, cs.LG 2025-09-20
Авторы:

Tianyang Duan, Zongyuan Zhang, Songxiao Guo, Dong Huang, Yuanye Zhao, Zheng Lin, Zihan Fang, Dianxin Luan, Heming Cui, Yong Cui

Резюме на русском

## Контекст Многоагентное машинное обучение с учетом вознаграждения (MARL) широко применяется для решения задач интеллектуального управления в широком круге приложений, включая игры, робототехнику и динамические системы. Однако существуют значительные проблемы с координацией и масштабируемостью при увеличении числа агентов. Эти ограничения становятся более острыми в средах с большим количеством агентов, где оптимальное взаимодействие требует большого объема вычислительных ресурсов и сложности алгоритмического подхода. Для решения этих проблем предлагается фреймворк LEED, который использует технологии боLARGE LANGUAGE MODELS (LLM) для создания эффективных и эффективных процедур во взаимодействии между агентами в многоагентных системах. Такой подход должен позволить улучшить скорость и качество адаптации, увеличить устойчивость системы и уменьшить затраты на обучение. ## Метод Предлагаемый фреймворк LEED включает в себя два модуля: генерации демонстраций (DG) и оптимизации политик (PO). Модуль DG использует большие языковые модели для формирования инструкций для взаимодействия с окружением. Это позволяет генерировать высококачественные демонстрации, которые служат основой для обучения. Модуль PO, в свою очередь, применяет децентрализованный подход к обучению, где каждый агент использует генерируемые демонстрации для формирования его локальной политики. Для этого политика каждого агента оптимизируется с использованием глобальных инструкций, полученных в DG, и локальных ошибок, определенных на основе индивидуальных опытов. Этот два этапа процесс обучения позволяет агентам эффективно сочетать глобальное знание и индивидуальный опыт. ## Результаты Эксперименты проводились на параллельных вычислительных средах, включающих несколько MARL-систем с различным количеством агентов. Для сравнения использовались текущие стандартные методы многоагентного обучения. Результаты показали, что LEED превосходит другие методы по эффективности выбора, времени обучения и масштабируемости. Особое внимание уделялось крупномасштабным системам, где LEED продемонстрировал существенные улучшения в скорости и качестве взаимодействия между агентами. Эти результаты подтверждают, что фреймворк LEED значительно улучшает эффективность и устойчивость многоагентных систем, даже при большом количестве агентов. ## Значимость Фреймворк LEED может быть применен в различных областях, включая игровые системы, системы управления роботами, системы распределенного управления, а также в задачах связанных с координацией группы сетевых агентов. Он предлаг

Abstract

Multi-agent reinforcement learning (MARL) holds substantial promise for intelligent decision-making in complex environments. However, it suffers from a coordination and scalability bottleneck as the number of agents increases. To address these issues, we propose the LLM-empowered expert demonstrations framework for multi-agent reinforcement learning (LEED). LEED consists of two components: a demonstration generation (DG) module and a policy optimization (PO) module. Specifically, the DG module leverages large language models to generate instructions for interacting with the environment, thereby producing high-quality demonstrations. The PO module adopts a decentralized training paradigm, where each agent utilizes the generated demonstrations to construct an expert policy loss, which is then integrated with its own policy loss. This enables each agent to effectively personalize and optimize its local policy based on both expert knowledge and individual experience. Experimental results show that LEED achieves superior sample efficiency, time efficiency, and robust scalability compared to state-of-the-art baselines.

Ссылки и действия