Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning
2509.15103v1
cs.MA, cs.AI
2025-09-20
Авторы:
Simin Li, Zheng Yuwei, Zihao Mao, Linhao Wang, Ruixiao Xu, Chengdong Ma, Xin Yu, Yuqing Ma, Qi Dou, Xin Wang, Jie Luo, Bo An, Yaodong Yang, Weifeng Lv, Xianglong Liu
Резюме на русском
## Контекст
В мире современных систем, основанных на многоагентной решающей системе (MAS), эффективность и надежность часто определяются внешними угрозами, такими как атаки, непредвиденные сбои или ограниченные ресурсы. Особенно волнующим становится вопрос идентификации самых уязвимых агентов в таких системах. Нарушение работы этих агентов может оказать значительное воздействие на общую производительность и надежность системы. В настоящем исследовании акцент ставится на тезис, что участие в многоагентной системе некоторых агентов может привести к критическим ошибкам и ухудшению работы всей системы. Данный аспект является ключевым для широкого круга приложений, в том числе для систем управления военными силами, сетей Интернета вещей (IoT) и цифровых средств управления технологическими процессами. Таким образом, необходимо разработать методы, способные эффективно определить и учесть эти важности для улучшения надежности и безопасности систем.
## Метод
Для решения проблемы идентификации уязвимых агентов в многоагентной системе была предложена методология, основывающаяся на методах математической оптимизации и машинного обучения. Главной идеей является использование декомпозиции задачи на две подзадачи: выбор уязвимых агентов и построение наихудших случаев поведения для них. На первом этапе используется трансформация Фенхеля-Рокафелла (Fenchel-Rockafellar) для декомпозиции задачи на уровень выбора агентов и уровень построения атак. Эта трансформация позволяет упростить вычислительно трудные задачи, достигнув обособленного обучения на каждом уровне. Далее, решение выбора уязвимых агентов использует метод последовательного гребания (greedy) в сочетании с агентными сетями (RL). Затем, построение наихудших случаев поведения для выбранных уязвимых агентов осуществляется с использованием методов марковских решающих процессов (MDP), в результате чего получается наиболее эффективный вариант атаки. Этот двухуровневый подход позволяет эффективно столкнуться с проблемой идентификации уязвимых агентов в многоагентных системах.
## Результаты
Исследование было проведено с использованием высокомасштабных многоагентных систем, включающих сотни агентов. Было проанализировано поведение системы при участии различных уровней атак, а также при определении наиболее уязвимых агентов. Результаты испытаний показали, что предложенная методика эффективно определяет уязвимых агентов и успешно руководствуется созданием максимального вреда для системы. Дополнительно, была проанализирована степень возде
Abstract
Partial agent failure becomes inevitable when systems scale up, making it
crucial to identify the subset of agents whose compromise would most severely
degrade overall performance. In this paper, we study this Vulnerable Agent
Identification (VAI) problem in large-scale multi-agent reinforcement learning
(MARL). We frame VAI as a Hierarchical Adversarial Decentralized Mean Field
Control (HAD-MFC), where the upper level involves an NP-hard combinatorial task
of selecting the most vulnerable agents, and the lower level learns worst-case
adversarial policies for these agents using mean-field MARL. The two problems
are coupled together, making HAD-MFC difficult to solve. To solve this, we
first decouple the hierarchical process by Fenchel-Rockafellar transform,
resulting a regularized mean-field Bellman operator for upper level that
enables independent learning at each level, thus reducing computational
complexity. We then reformulate the upper-level combinatorial problem as a MDP
with dense rewards from our regularized mean-field Bellman operator, enabling
us to sequentially identify the most vulnerable agents by greedy and RL
algorithms. This decomposition provably preserves the optimal solution of the
original HAD-MFC. Experiments show our method effectively identifies more
vulnerable agents in large-scale MARL and the rule-based system, fooling system
into worse failures, and learns a value function that reveals the vulnerability
of each agent.
Ссылки и действия
Дополнительные ресурсы: