Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety

2508.03864v1 cs.AI 2025-08-09
Авторы:

Zhenyu Pan, Yiting Zhang, Yutong Zhang, Jianshu Zhang, Haozheng Luo, Yuwei Han, Dennis Wu, Hong-Yu Chen, Philip S. Yu, Manling Li, Han Liu

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультиагентные системы (MAS), построенные на основе мультимодальных больших языковых моделей (MLLM), демонстрируют высокую степень кооперации и эффективность в выполнении сложных задач. Однако с ростом открытости и сложности взаимодействий в этих системах возрастают риски, такие как jailbreak-атаки и адверсариальные противодействия. Традиционные методы защиты часто основываются на внешних модулях-защитниках, называемых safety agents, которые отвечают за обработку небезопасных поведений. Однако этот подход сталкивается со двумя ключевыми проблемами: (1) автономные защитные агенты предлагают ограниченную защиту, и (2) их независимость создает уязвимость к системным сбоям — если один из них скомпрометирован, вся система может быть подвержена риску. Попытки решить эти проблемы путем увеличения количества защитных агентов приводят к повышению стоимости и усложнению системы. Кроме того, отдельно существующие защитные модули не всегда эффективны в обеспечении комплексной безопасности. Эти проблемы подчеркивают необходимость разработки более эффективных методов, которые бы обеспечивали внутреннюю безопасность MAS без необходимости внешних защитных компонентов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем предлагается **Evo-MARL** — новаторский фреймворк для мультиагентного обучения с подкреплением (MARL), основанный на ко-эволюционной парадигме. Evo-MARL позволяет всем агентам в системе одновременно выполнять свои основные функции и сопротивляться адверсариальным угрозам. Основная инновация заключается в том, что безопасность не делегируется внешним модулям, а интернализируется непосредственно внутри каждого агента. Evo-MARL сочетает эволюционный поиск с параметрическим общим обучением. Это позволяет "совместной эволюции" атакующих и защитных агентов, что стимулирует развитие более сильных защитных механизмов. В процессе обучения каждый агент улучшает свои возможности не только в рамках своего первичного функционала, но также развивает способность противостоять внешним угрозам. Этот подход не только повышает эффективность системы в целом, но и устраняет риск системного сбоя, связанный с компрометацией отдельных защитных модулей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились для оценки эффективности Evo-MARL в условиях реальных угроз. Результаты показали, что система уменьшает успешность атак на 22%, а точность выполнения задач резонующих при этом увеличивается на 5%. Эти результаты демонстрируют, что безопасность и утилитарность могут быть достигнуты одновременно, не требуя дополнительного оверхеда или сложности в системе. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Evo-MARL открывает новые возможности для применения в критически важных областях, таких как автономные транспортные системы, робототехника и кибербезопасность. Его способность обеспечить внутреннюю безопасность без дополнительных внешних модулей делает его привлекательным для систем, требующих высокой надёжности и низкого риска сбоев. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Evo-MARL является важной шагом в развитии безопасных мультиагентных систем. Будущие исследования могут сосредоточиться на дальнейшем улучшении эволюционных алгоритмов и расширении областей применения этой технологии.

Abstract

Multi-agent systems (MAS) built on multimodal large language models exhibit strong collaboration and performance. However, their growing openness and interaction complexity pose serious risks, notably jailbreak and adversarial attacks. Existing defenses typically rely on external guard modules, such as dedicated safety agents, to handle unsafe behaviors. Unfortunately, this paradigm faces two challenges: (1) standalone agents offer limited protection, and (2) their independence leads to single-point failure-if compromised, system-wide safety collapses. Naively increasing the number of guard agents further raises cost and complexity. To address these challenges, we propose Evo-MARL, a novel multi-agent reinforcement learning (MARL) framework that enables all task agents to jointly acquire defensive capabilities. Rather than relying on external safety modules, Evo-MARL trains each agent to simultaneously perform its primary function and resist adversarial threats, ensuring robustness without increasing system overhead or single-node failure. Furthermore, Evo-MARL integrates evolutionary search with parameter-sharing reinforcement learning to co-evolve attackers and defenders. This adversarial training paradigm internalizes safety mechanisms and continually enhances MAS performance under co-evolving threats. Experiments show that Evo-MARL reduces attack success rates by up to 22% while boosting accuracy by up to 5% on reasoning tasks-demonstrating that safety and utility can be jointly improved.

Ссылки и действия