Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety
2508.03864v1
cs.AI
2025-08-09
Авторы:
Zhenyu Pan, Yiting Zhang, Yutong Zhang, Jianshu Zhang, Haozheng Luo, Yuwei Han, Dennis Wu, Hong-Yu Chen, Philip S. Yu, Manling Li, Han Liu
Резюме на русском
---
title: КОНТЕКСТ И ПРОБЛЕМАТИКА
---
### message
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Мультиагентные системы (MAS), построенные на основе мультимодальных больших языковых моделей (MLLM), демонстрируют высокую степень кооперации и эффективность в выполнении сложных задач. Однако с ростом открытости и сложности взаимодействий в этих системах возрастают риски, такие как jailbreak-атаки и адверсариальные противодействия. Традиционные методы защиты часто основываются на внешних модулях-защитниках, называемых safety agents, которые отвечают за обработку небезопасных поведений. Однако этот подход сталкивается со двумя ключевыми проблемами: (1) автономные защитные агенты предлагают ограниченную защиту, и (2) их независимость создает уязвимость к системным сбоям — если один из них скомпрометирован, вся система может быть подвержена риску.
Попытки решить эти проблемы путем увеличения количества защитных агентов приводят к повышению стоимости и усложнению системы. Кроме того, отдельно существующие защитные модули не всегда эффективны в обеспечении комплексной безопасности. Эти проблемы подчеркивают необходимость разработки более эффективных методов, которые бы обеспечивали внутреннюю безопасность MAS без необходимости внешних защитных компонентов.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для решения вышеописанных проблем предлагается **Evo-MARL** — новаторский фреймворк для мультиагентного обучения с подкреплением (MARL), основанный на ко-эволюционной парадигме. Evo-MARL позволяет всем агентам в системе одновременно выполнять свои основные функции и сопротивляться адверсариальным угрозам. Основная инновация заключается в том, что безопасность не делегируется внешним модулям, а интернализируется непосредственно внутри каждого агента.
Evo-MARL сочетает эволюционный поиск с параметрическим общим обучением. Это позволяет "совместной эволюции" атакующих и защитных агентов, что стимулирует развитие более сильных защитных механизмов. В процессе обучения каждый агент улучшает свои возможности не только в рамках своего первичного функционала, но также развивает способность противостоять внешним угрозам. Этот подход не только повышает эффективность системы в целом, но и устраняет риск системного сбоя, связанный с компрометацией отдельных защитных модулей.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Эксперименты проводились для оценки эффективности Evo-MARL в условиях реальных угроз. Результаты показали, что система уменьшает успешность атак на 22%, а точность выполнения задач резонующих при этом увеличивается на 5%. Эти результаты демонстрируют, что безопасность и утилитарность могут быть достигнуты одновременно, не требуя дополнительного оверхеда или сложности в системе.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Evo-MARL открывает новые возможности для применения в критически важных областях, таких как автономные транспортные системы, робототехника и кибербезопасность. Его способность обеспечить внутреннюю безопасность без дополнительных внешних модулей делает его привлекательным для систем, требующих высокой надёжности и низкого риска сбоев.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Evo-MARL является важной шагом в развитии безопасных мультиагентных систем. Будущие исследования могут сосредоточиться на дальнейшем улучшении эволюционных алгоритмов и расширении областей применения этой технологии.
Abstract
Multi-agent systems (MAS) built on multimodal large language models exhibit
strong collaboration and performance. However, their growing openness and
interaction complexity pose serious risks, notably jailbreak and adversarial
attacks. Existing defenses typically rely on external guard modules, such as
dedicated safety agents, to handle unsafe behaviors. Unfortunately, this
paradigm faces two challenges: (1) standalone agents offer limited protection,
and (2) their independence leads to single-point failure-if compromised,
system-wide safety collapses. Naively increasing the number of guard agents
further raises cost and complexity. To address these challenges, we propose
Evo-MARL, a novel multi-agent reinforcement learning (MARL) framework that
enables all task agents to jointly acquire defensive capabilities. Rather than
relying on external safety modules, Evo-MARL trains each agent to
simultaneously perform its primary function and resist adversarial threats,
ensuring robustness without increasing system overhead or single-node failure.
Furthermore, Evo-MARL integrates evolutionary search with parameter-sharing
reinforcement learning to co-evolve attackers and defenders. This adversarial
training paradigm internalizes safety mechanisms and continually enhances MAS
performance under co-evolving threats. Experiments show that Evo-MARL reduces
attack success rates by up to 22% while boosting accuracy by up to 5% on
reasoning tasks-demonstrating that safety and utility can be jointly improved.
Ссылки и действия
Дополнительные ресурсы: