Constructive Conflict-Driven Multi-Agent Reinforcement Learning for Strategic Diversity
2509.14276v1
cs.MA, cs.AI
2025-09-20
Авторы:
Yuxiang Mai, Qiyue Yin, Wancheng Ni, Pei Xu, Kaiqi Huang
Резюме на русском
## Контекст
Одной из главных проблем в области многоагентного управления (Multi-Agent Reinforcement Learning, MARL) является недостаточная стратегическая диверсификация агентов. Это приводит к ограниченности в поведении, неэффективности и потенциальной уязвимости системы. Исследователи признают, что повышение стратегической диверсификации может улучшить производительность MARL в сложных средах. Однако существующие методы, уделяющие основное внимание индивидуальным характеристикам агентов, часто игнорируют взаимодействие и взаимовлияние между агентами в процессе формирования политик. Это стремительно растущее интерес к MARL, особенно в сферах, таких как игры, робототехника и системы управления, подчеркивает необходимость разработки эффективных методов для повышения стратегической диверсификации.
## Метод
Мы предлагаем Competitive Diversity through Constructive Conflict (CoDiCon), новую методологию, которая внедряет конкурентные мотивации в кооперативные сценарии. Метод основывается на теориях социологии, подчеркивающих положительное влияние умеренной конкуренции и конструктивных конфликтов на групповое принятие решений. CoDiCon вводит интринсический мотивационный механизм, основанный на функциях ранжирования, чтобы вдохновить агентов на обмен политиками и стратегическую диверсификацию. Централизованный модуль интринсического вознаграждения генерирует и распределяет различные вознаграждения между агентами, обеспечивая баланс между конкуренцией и сотрудничеством. Мы используем параметризованные модели и оптимизируем их, чтобы максимизировать общие вознаграждения в среде. Это позволяет реформулировать задачу оптимизации с ограничениями, соответствующую оригинальному MARL-заданию.
## Результаты
Мы провели эксперименты в окружениях SMAC (StarCraft Multi-Agent Challenge) и GRF (Goal-Reaching Football), которые широко используются для оценки методов MARL. Выполнена сравнительная оценка CoDiCon с трёх современными методами. Результаты показали, что CoDiCon демонстрирует значительное превосходство в степени диверсификации политик и эффективности выполнения задачи. Особенно выделяется эффект интринсических конкурентных мотивов, которые стимулируют агентов к обнаружению более адаптивных и разнообразных стратегий. Это свидетельствует о том, что CoDiCon успешно решает проблему недостаточной стратегической диверсификации в MARL.
## Значимость
Метод CoDiCon может быть применён в различных областях, таких как игровые системы, распределённые системы управления, искусственный интеллект в робототехнике и моделирования коллективного поведения. Основное преимущество CoDiCon заключается в том, что он не только увеличивает с
Abstract
In recent years, diversity has emerged as a useful mechanism to enhance the
efficiency of multi-agent reinforcement learning (MARL). However, existing
methods predominantly focus on designing policies based on individual agent
characteristics, often neglecting the interplay and mutual influence among
agents during policy formation. To address this gap, we propose Competitive
Diversity through Constructive Conflict (CoDiCon), a novel approach that
incorporates competitive incentives into cooperative scenarios to encourage
policy exchange and foster strategic diversity among agents. Drawing
inspiration from sociological research, which highlights the benefits of
moderate competition and constructive conflict in group decision-making, we
design an intrinsic reward mechanism using ranking features to introduce
competitive motivations. A centralized intrinsic reward module generates and
distributes varying reward values to agents, ensuring an effective balance
between competition and cooperation. By optimizing the parameterized
centralized reward module to maximize environmental rewards, we reformulate the
constrained bilevel optimization problem to align with the original task
objectives. We evaluate our algorithm against state-of-the-art methods in the
SMAC and GRF environments. Experimental results demonstrate that CoDiCon
achieves superior performance, with competitive intrinsic rewards effectively
promoting diverse and adaptive strategies among cooperative agents.
Ссылки и действия
Дополнительные ресурсы: