Who is Introducing the Failure? Automatically Attributing Failures of Multi-Agent Systems via Spectrum Analysis

2509.13782v1 cs.SE, cs.AI, cs.MA, D.2.2; I.2.1 2025-09-19

Авторы:

Yu Ge, Linna Xie, Zhong Li, Yu Pei, Tian Zhang

Резюме на русском

#### Контекст Large Language Model Powered Multi-Agent Systems (MASs) широко используются для решения сложных реальных задач, таких как программирование и научные открытия. Несмотря на их перспективные возможности, они не являются идеальными и часто сталкиваются с ошибками. Одной из основных проблем при использовании MASs является необходимость быстро и точно определить, какая агентская деятельность привела к неполадке. Этот процесс, известный как атрибуция неполадок, требует значительных усилий и является затратным в терминах времени и ресурсов. Большинство существующих подходов к атрибуции неполадок требуют ручного анализа или нетранспарентных методов, что порождает затруднения в диагностике и моделировании MASs. #### Метод Мы предлагаем FAMAS (Failure Attribution in Multi-Agent Systems) — первый spectrum-based подход к атрибуции неполадок в MASs. Работа FAMAS основывается на двух основных компонентах: траектории реплея и абстракции, а также spectrum analysis. Метод FAMAS использует периодические выполнения MASs для вычисления вероятности того, что каждая конкретная действие агента стало причиной неполадки. Основной инновацией является специально разработанная формула, которая агрегирует два ключевых фактора: агентские поведенческие характеристики и поведенческие характеристики действий. Эта формула позволяет учитывать активации агентов и действий в траекториях MASs, чтобы определить самое вероятное источником неполадки действие. #### Результаты Мы провели эксперименты с FAMAS на 12 существующих baseline-методах, используя бенчмарк Who and When. Результаты показали, что FAMAS превосходит все существующие подходы в точности и транспарентности при атрибуции неполадок. Мы также показали, что FAMAS может эффективно идентифицировать ответственных агентов в сложных сценариях, включающих множественные агентов и действия. FAMAS подтвердил свою эффективность в реальных условиях, где он выделяет ответственных агентов за неполадки в меньшем количестве выполнений MASs по сравнению с другими методами. #### Значимость Предлагаемый подход FAMAS имеет широкие применения в области автоматизации диагностики и мониторинга MASs. Он позволяет сократить время и усилия, необходимые для атрибуции неполадок, и улучшает прозрачность и надежность MASs. Благодаря ему можно быстрее выявлять и устранять ошибки, что повышает эффективность систем. Мы также выявили, что FAMAS может быть применен в различных областях, таких как программирование, научные открытия и другие сложные задачи, где MASs используются для управления процессами. #### Выводы Результаты наших экспериментов показали, что FAMAS является эффективным инструментом для атри

Abstract

Large Language Model Powered Multi-Agent Systems (MASs) are increasingly employed to automate complex real-world problems, such as programming and scientific discovery. Despite their promising, MASs are not without their flaws. However, failure attribution in MASs - pinpointing the specific agent actions responsible for failures - remains underexplored and labor-intensive, posing significant challenges for debugging and system improvement. To bridge this gap, we propose FAMAS, the first spectrum-based failure attribution approach for MASs, which operates through systematic trajectory replay and abstraction, followed by spectrum analysis.The core idea of FAMAS is to estimate, from variations across repeated MAS executions, the likelihood that each agent action is responsible for the failure. In particular, we propose a novel suspiciousness formula tailored to MASs, which integrates two key factor groups, namely the agent behavior group and the action behavior group, to account for the agent activation patterns and the action activation patterns within the execution trajectories of MASs. Through expensive evaluations against 12 baselines on the Who and When benchmark, FAMAS demonstrates superior performance by outperforming all the methods in comparison.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация