Attack the Messages, Not the Agents: A Multi-round Adaptive Stealthy Tampering Framework for LLM-MAS
2508.03125v1
cs.CR, cs.AI, cs.MA
2025-08-09
Авторы:
Bingyu Yan, Ziyi Zhou, Xiaoming Zhang, Chaozhuo Li, Ruilin Zeng, Yirui Qi, Tianbo Wang, Litian Zhang
Резюме на русском
**Резюме**
В данной работе рассматривается проблема уязвимости коммуникационных каналов в Large Language Model-based Multi-Agent Systems (LLM-MAS), которые эффективно решают сложные и динамические задачи через интерактивное взаимодействие между агентами. Однако эти системы чрезвычайно восприимчивы к атакам, направленным на токсичность сообщений или напрямую направленные подделки, которые либо проявляются слишком очевидно, либо ограничиваются локальным воздействием. Мы предлагаем Multi-round Adaptive Stealthy Tampering (MAST), фреймворк, основанный на Monte Carlo Tree Search с использованием Direct Preference Optimization для обучения адаптивной политики атак, которая эффективно и легко заметно меняет логику коммуникации. Для сохранения стелсности применяются ограничения на семантическую и векторно-семантическую близость сообщений. Эксперименты показали, что MAST обеспечивает высокую эффективность атак с увеличенной стелсностью по сравнению с базовыми методами. Эти результаты подчеркивают важность создания эффективных механизмов безопасности коммуникаций в LLM-MAS.
Abstract
Large language model-based multi-agent systems (LLM-MAS) effectively
accomplish complex and dynamic tasks through inter-agent communication, but
this reliance introduces substantial safety vulnerabilities. Existing attack
methods targeting LLM-MAS either compromise agent internals or rely on direct
and overt persuasion, which limit their effectiveness, adaptability, and
stealthiness. In this paper, we propose MAST, a Multi-round Adaptive Stealthy
Tampering framework designed to exploit communication vulnerabilities within
the system. MAST integrates Monte Carlo Tree Search with Direct Preference
Optimization to train an attack policy model that adaptively generates
effective multi-round tampering strategies. Furthermore, to preserve
stealthiness, we impose dual semantic and embedding similarity constraints
during the tampering process. Comprehensive experiments across diverse tasks,
communication architectures, and LLMs demonstrate that MAST consistently
achieves high attack success rates while significantly enhancing stealthiness
compared to baselines. These findings highlight the effectiveness,
stealthiness, and adaptability of MAST, underscoring the need for robust
communication safeguards in LLM-MAS.
Ссылки и действия
Дополнительные ресурсы: