Who is Introducing the Failure? Automatically Attributing Failures of Multi-Agent Systems via Spectrum Analysis
2509.13782v1
cs.SE, cs.AI, cs.MA, D.2.2; I.2.1
2025-09-19
Авторы:
Yu Ge, Linna Xie, Zhong Li, Yu Pei, Tian Zhang
Резюме на русском
#### Контекст
Large Language Model Powered Multi-Agent Systems (MASs) широко используются для решения сложных реальных задач, таких как программирование и научные открытия. Несмотря на их перспективные возможности, они не являются идеальными и часто сталкиваются с ошибками. Одной из основных проблем при использовании MASs является необходимость быстро и точно определить, какая агентская деятельность привела к неполадке. Этот процесс, известный как атрибуция неполадок, требует значительных усилий и является затратным в терминах времени и ресурсов. Большинство существующих подходов к атрибуции неполадок требуют ручного анализа или нетранспарентных методов, что порождает затруднения в диагностике и моделировании MASs.
#### Метод
Мы предлагаем FAMAS (Failure Attribution in Multi-Agent Systems) — первый spectrum-based подход к атрибуции неполадок в MASs. Работа FAMAS основывается на двух основных компонентах: траектории реплея и абстракции, а также spectrum analysis. Метод FAMAS использует периодические выполнения MASs для вычисления вероятности того, что каждая конкретная действие агента стало причиной неполадки. Основной инновацией является специально разработанная формула, которая агрегирует два ключевых фактора: агентские поведенческие характеристики и поведенческие характеристики действий. Эта формула позволяет учитывать активации агентов и действий в траекториях MASs, чтобы определить самое вероятное источником неполадки действие.
#### Результаты
Мы провели эксперименты с FAMAS на 12 существующих baseline-методах, используя бенчмарк Who and When. Результаты показали, что FAMAS превосходит все существующие подходы в точности и транспарентности при атрибуции неполадок. Мы также показали, что FAMAS может эффективно идентифицировать ответственных агентов в сложных сценариях, включающих множественные агентов и действия. FAMAS подтвердил свою эффективность в реальных условиях, где он выделяет ответственных агентов за неполадки в меньшем количестве выполнений MASs по сравнению с другими методами.
#### Значимость
Предлагаемый подход FAMAS имеет широкие применения в области автоматизации диагностики и мониторинга MASs. Он позволяет сократить время и усилия, необходимые для атрибуции неполадок, и улучшает прозрачность и надежность MASs. Благодаря ему можно быстрее выявлять и устранять ошибки, что повышает эффективность систем. Мы также выявили, что FAMAS может быть применен в различных областях, таких как программирование, научные открытия и другие сложные задачи, где MASs используются для управления процессами.
#### Выводы
Результаты наших экспериментов показали, что FAMAS является эффективным инструментом для атри
Abstract
Large Language Model Powered Multi-Agent Systems (MASs) are increasingly
employed to automate complex real-world problems, such as programming and
scientific discovery. Despite their promising, MASs are not without their
flaws. However, failure attribution in MASs - pinpointing the specific agent
actions responsible for failures - remains underexplored and labor-intensive,
posing significant challenges for debugging and system improvement. To bridge
this gap, we propose FAMAS, the first spectrum-based failure attribution
approach for MASs, which operates through systematic trajectory replay and
abstraction, followed by spectrum analysis.The core idea of FAMAS is to
estimate, from variations across repeated MAS executions, the likelihood that
each agent action is responsible for the failure. In particular, we propose a
novel suspiciousness formula tailored to MASs, which integrates two key factor
groups, namely the agent behavior group and the action behavior group, to
account for the agent activation patterns and the action activation patterns
within the execution trajectories of MASs. Through expensive evaluations
against 12 baselines on the Who and When benchmark, FAMAS demonstrates superior
performance by outperforming all the methods in comparison.