Constructive Conflict-Driven Multi-Agent Reinforcement Learning for Strategic Diversity

2509.14276v1 cs.MA, cs.AI 2025-09-20

Авторы:

Yuxiang Mai, Qiyue Yin, Wancheng Ni, Pei Xu, Kaiqi Huang

Резюме на русском

## Контекст Одной из главных проблем в области многоагентного управления (Multi-Agent Reinforcement Learning, MARL) является недостаточная стратегическая диверсификация агентов. Это приводит к ограниченности в поведении, неэффективности и потенциальной уязвимости системы. Исследователи признают, что повышение стратегической диверсификации может улучшить производительность MARL в сложных средах. Однако существующие методы, уделяющие основное внимание индивидуальным характеристикам агентов, часто игнорируют взаимодействие и взаимовлияние между агентами в процессе формирования политик. Это стремительно растущее интерес к MARL, особенно в сферах, таких как игры, робототехника и системы управления, подчеркивает необходимость разработки эффективных методов для повышения стратегической диверсификации. ## Метод Мы предлагаем Competitive Diversity through Constructive Conflict (CoDiCon), новую методологию, которая внедряет конкурентные мотивации в кооперативные сценарии. Метод основывается на теориях социологии, подчеркивающих положительное влияние умеренной конкуренции и конструктивных конфликтов на групповое принятие решений. CoDiCon вводит интринсический мотивационный механизм, основанный на функциях ранжирования, чтобы вдохновить агентов на обмен политиками и стратегическую диверсификацию. Централизованный модуль интринсического вознаграждения генерирует и распределяет различные вознаграждения между агентами, обеспечивая баланс между конкуренцией и сотрудничеством. Мы используем параметризованные модели и оптимизируем их, чтобы максимизировать общие вознаграждения в среде. Это позволяет реформулировать задачу оптимизации с ограничениями, соответствующую оригинальному MARL-заданию. ## Результаты Мы провели эксперименты в окружениях SMAC (StarCraft Multi-Agent Challenge) и GRF (Goal-Reaching Football), которые широко используются для оценки методов MARL. Выполнена сравнительная оценка CoDiCon с трёх современными методами. Результаты показали, что CoDiCon демонстрирует значительное превосходство в степени диверсификации политик и эффективности выполнения задачи. Особенно выделяется эффект интринсических конкурентных мотивов, которые стимулируют агентов к обнаружению более адаптивных и разнообразных стратегий. Это свидетельствует о том, что CoDiCon успешно решает проблему недостаточной стратегической диверсификации в MARL. ## Значимость Метод CoDiCon может быть применён в различных областях, таких как игровые системы, распределённые системы управления, искусственный интеллект в робототехнике и моделирования коллективного поведения. Основное преимущество CoDiCon заключается в том, что он не только увеличивает с

Abstract

In recent years, diversity has emerged as a useful mechanism to enhance the efficiency of multi-agent reinforcement learning (MARL). However, existing methods predominantly focus on designing policies based on individual agent characteristics, often neglecting the interplay and mutual influence among agents during policy formation. To address this gap, we propose Competitive Diversity through Constructive Conflict (CoDiCon), a novel approach that incorporates competitive incentives into cooperative scenarios to encourage policy exchange and foster strategic diversity among agents. Drawing inspiration from sociological research, which highlights the benefits of moderate competition and constructive conflict in group decision-making, we design an intrinsic reward mechanism using ranking features to introduce competitive motivations. A centralized intrinsic reward module generates and distributes varying reward values to agents, ensuring an effective balance between competition and cooperation. By optimizing the parameterized centralized reward module to maximize environmental rewards, we reformulate the constrained bilevel optimization problem to align with the original task objectives. We evaluate our algorithm against state-of-the-art methods in the SMAC and GRF environments. Experimental results demonstrate that CoDiCon achieves superior performance, with competitive intrinsic rewards effectively promoting diverse and adaptive strategies among cooperative agents.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Constructive Conflict-Driven Multi-Agent Reinforcement Learning for Strategic Diversity

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Strategic Self-Improvement for Competitive Agents in AI Labour Markets

AsymPuzl: An Asymmetric Puzzle for multi-agent cooperation

EZYer: A simulacrum of high school with generative agent

Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions

AgentODRL: A Large Language Model-based Multi-agent System for ODRL Generation

Навигация