An Improved Multi-Agent Algorithm for Cooperative and Competitive Environments by Identifying and Encouraging Cooperation among Agents

2508.14131v1 cs.MA, cs.AI 2025-08-22
Авторы:

Junjie Qi, Siqi Mao, Tianyi Tan

Резюме на русском

#### Контекст В последние годы наблюдается быстрое развитие методов мультиагентного распределенного обучения. Эти методы применяются в различных областях, включая игровые системы, системы управления транспортными системами, робототехнику и другие. Однако наличие конфликтных интересов между агентами часто становится основной проблемой в мультиагентных средах. Большинство существующих алгоритмов, таких как MADDPG (Multi-Agent Deep Deterministic Policy Gradient), стремятся оптимизировать непосредственные свойства агента. Тем не менее, эффективное использование взаимодействия между агентами в сценариях с кооперацией и конкуренцией остается значительной проблемой. Наша мотивация заключается в разработке алгоритма, который не только учитывает конфликты, но и поощряет мотивацию к кооперации. #### Метод Мы предлагаем усовершенствованный алгоритм, который базируется на MADDPG, но включает дополнительный параметр для определения и поощрения кооперативного поведения. Наш алгоритм включает следующие шаги: 1. **Анализ недостатков существующих методов.** Мы проанализировали главные недостатки MADDPG, особенно в ситуациях с конкурентно-кооперативными задачами. 2. **Введение дополнительного параметра.** Мы добавили параметр, который мотивирует агентов привлекать другие агентов к кооперации, увеличивая таким образом значение взаимной награды. 3. **Интеграция в существующую архитектуру.** Мы внедрили этот параметр в архитектуру MADDPG, обеспечивая гармоничное взаимодействие с другими компонентами алгоритма. 4. **Эксперименты в PettingZoo.** Мы проверили наш алгоритм в различных средах из PettingZoo, включая задачи с широким спектром уровней сложности. #### Результаты Мы провели исследования в нескольких средах PettingZoo, включая "Cooperative Communication" и "Predator-Prey". Анализируя результаты, мы установили, что наш алгоритм позволяет агентам достигать выше средних командных наград и индивидуальных наград по сравнению с MADDPG. Обнаружено, что новый параметр способствует более эффективному использованию взаимодействия между агентами, что влечет за собой улучшение эффективности и стабильности работы системы. #### Значимость Наш алгоритм может быть применен в различных областях, включая робототехнику, игровые системы, автоматизированные системы управления. Одним из основных преимуществ является улучшение кооперативного поведения между агентами, что повышает эффективность решения задач в сценариях с конкуренцией и кооперацией. Это может привести к новым возможностям в области роботов-коллег, систем управления транспортом и игр, где

Abstract

We propose an improved algorithm by identifying and encouraging cooperative behavior in multi-agent environments. First, we analyze the shortcomings of existing algorithms in addressing multi-agent reinforcement learning problems. Then, based on the existing algorithm MADDPG, we introduce a new parameter to increase the reward that an agent can obtain when cooperative behavior among agents is identified. Finally, we compare our improved algorithm with MADDPG in environments from PettingZoo. The results show that the new algorithm helps agents achieve both higher team rewards and individual rewards.

Ссылки и действия