LLM Collaboration With Multi-Agent Reinforcement Learning

2508.04652v1 cs.AI, cs.SE 2025-08-08

Авторы:

Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультиагентные системы (MAS) широко используются для моделирования и решения задач, в которых несколько агентов взаимодействуют друг с другом. Однако, несмотря на значительные успехи в области машинного обучения, большинство больших языковых моделей (LLM) обучаются независимо, не специально оптимизированной для координации действий между агентами. Это создает значительные ограничения для применения LLMs в контексте коллаборативной работы. Традиционные методы файн-тюнинга LLMs часто основываются на индивидуальных наградах для каждого агента, что требует сложного дизайна системы наград для стимулирования координации. Такой подход неэффективен и не всегда обеспечивает качественное взаимодействие между агентами. Кроме того, существующие методы не позволяют эффективно использовать преимущества координации в мультиагентных задачах, особенно в сложных ситуациях, требующих высокого уровня коллаборативности. Данная проблематика становится особенно актуальной в контексте задач, связанных с коллаборативным написанием текстов или программированием, где необходимо обеспечить высокую степень взаимодействия и качество результатов. Таким образом, необходимо разработать более эффективный подход для моделирования коллаборативного поведения LLMs с использованием мультиагентного обучения с подкреплением (MARL). ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается моделировать коллаборативное поведение LLMs как задачу кооперативного Multi-Agent Reinforcement Learning (MARL). Для решения этой задачи разработан алгоритм **Multi-Agent Group Relative Policy Optimization (MAGRPO)**, который сочетает современные методы обучения с подкреплением для LLMs и методы MARL. MAGRPO основывается на построении групповой политики, которая учитывает взаимодействие между агентами и оптимизирует их поведение в коллаборативном контексте. Алгоритм использует механизм относительной оптимизации политик для каждого агента, что позволяет добиться более эффективной координации без необходимости сложного дизайна системы наград. Архитектура MAGRPO включает в себя следующие компоненты: 1. **Мультиагентная модель**: Каждый агент представляет собой LLM, который обучается взаимодействовать с другими агентами в рамках коллаборативной задачи. 2. **Групповая политика**: Оптимизируется для всей группы агентов, учитывающая совместные действия и их влияние на конечный результат. 3. **Относительная оптимизация**: Алгоритм оптимизирует политику для каждого агента относительно поведения других агентов, что обеспечивает более стабильное и кооперативное поведение. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на задачах коллаборативного написания текстов и коллаборативного программирования. В экспериментах использовались различные датасеты, представляющие реальные сценарии взаимодействия агентов. Результаты показали, что файн-тюнинг LLMs с использованием MAGRPO значительно улучшает качество создаваемых ответов и эффективность коллаборативного процесса. Агенты, обученные с помощью MAGRPO, демонстрируют более высокую степень координации и качество генерируемых текстов по сравнению с традиционными методами файн-тюнинга. Кроме того, эксперименты подтвердили, что MAGRPO позволяет эффективно использовать методы MARL для LLMs, обеспечивая лучшую адаптацию к сложным коллаборативным сценариям. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих коллаборативной работы нескольких агентов. Например, в области автоматического написания текстов, программирования, игр и других ситуаций, требующих высокого уровня взаимодействия. Преимущества MAGRPO включают: - **Улучшенная координация**: Алгоритм обеспечивает более эффективное взаимодействие между агентами. - **Улучшенное качество результатов**: Генерируемые тексты и код имеют высокий уровень качества и соответствия задаче. - **Простота дизайна наград**: Отсутствие необходимости в сложном дизайне системы наград упрощает процесс обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе предложен новый подход для моделирования коллаборативного поведения LLMs с использованием MARL. Алгоритм MAGRPO показал высокую эффективность в задачах коллаборативного написания текстов и программирования. Будущие исследования могут сосредоточиться на расширении этого подхода для более сложных мультиагентных задач, а также на исследовании других методов MARL для LLMs. Также важно исследовать возможности применения этого подхода в реальных системах, требующих высокого уровня коллаборативности.

Abstract

A large amount of work has been done in Multi-Agent Systems (MAS) for modeling and solving problems with multiple interacting agents. However, most LLMs are pretrained independently and not specifically optimized for coordination. Existing LLM fine-tuning frameworks rely on individual rewards, which require complex reward designs for each agent to encourage collaboration. To address these challenges, we model LLM collaboration as a cooperative Multi-Agent Reinforcement Learning (MARL) problem. We develop a multi-agent, multi-turn algorithm, Multi-Agent Group Relative Policy Optimization (MAGRPO), to solve it, building on current RL approaches for LLMs as well as MARL techniques. Our experiments on LLM writing and coding collaboration demonstrate that fine-tuning MAS with MAGRPO enables agents to generate high-quality responses efficiently through effective cooperation. Our approach opens the door to using other MARL methods for LLMs and highlights the associated challenges.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LLM Collaboration With Multi-Agent Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows

TaskEval: Synthesised Evaluation for Foundation-Model Tasks

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing,...

Learning to Debug: LLM-Organized Knowledge Trees for Solving RTL Assertion Failu...

Natural Emergent Misalignment from Reward Hacking in Production RL

Навигация