Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought

2508.20370v1 cs.SE, cs.AI 2025-08-30
Авторы:

Lingzhe Zhang, Tong Jia, Kangjin Wang, Weijie Hong, Chiming Duan, Minghua He, Ying Li

Резюме на русском

## Контекст Contemporary microservice systems, состоящие из сотен или даже тысяч тонких, взаимосвязанных подсистем, становятся все более популярными и сложными. Эта сложность приводит к частым сбоям, что требует эффективных методов локализации корня проблемы для обеспечения надежности. Существующие методы локализации корня проблем часто требуют предварительно определенных схем, которые более трудно адаптируются к изменениям операционного контекста. Более того, многие из них не имеют понятного метода рассуждения, что затрудняет понимание результатов Site Reliability Engineers (SREs). Наша мотивация заключается в разработке метода, который будет использовать многоагентную стратегию раRE-CURSION-OF-THOUGHT для лучшего описания и адаптации к развивающимся системам. ## Метод Мы разработали метод локализации корня проблемы RCLAgent, который включает в себя новую стратегию многоагентного рассуждения. Метод использует несколько агентов, которые работают вместе с системой на основе технологий Large Language Models (LLM). RCLAgent использует многомерную модель рассуждения, что позволяет добиться более точного и эффективного локализации корня проблемы. Мы также интегрировали в RCLAgent инструменты анализа и средства для получения данных из разных источников, чтобы улучшить точность и скорость локализации. ## Результаты Мы провели испытания на нескольких общедоступных наборах данных, показав, что RCLAgent значительно превосходит состояние технологии. Метод достиг превышения в отношении точности и скорости локализации корня проблемы, предлагая решения после обработки одного запроса, в то время как другие методы требуют сбора данных из нескольких запросов. В результате, RCLAgent обеспечивает более быструю и точную локализацию корня проблемы, что позволяет SREs быстрее реагировать на сбои. ## Значимость Этот метод может быть применен в различных сферах, где требуется реакция на сбои и локализация корня проблемы в сложных системах. Эффективность и точность RCLAgent позволяют SREs более эффективно управлять сложными микросервисными системами. Мы видим возможности для будущих исследований в развитии методов, которые могут улучшить интерактивность и увеличить производительность в микросервисных средах. ## Выводы Мы представили RCLAgent, метод локализации корня проблемы для микросервисных систем, использующий новую стратегию многоагентного рассуждения. Эксперименты показали, что RCLAgent превышает состояние технологии в точности и скорости локализации корня проблемы. Этот метод имеет большой потенциал для улучшения обслуживания и надежности микросервисных систем. Мы планируем продолжить развитие м

Abstract

As contemporary microservice systems become increasingly popular and complex-often comprising hundreds or even thousands of fine-grained, interdependent subsystems-they are facing more frequent failures. Ensuring system reliability thus demands accurate root cause localization. While traces and metrics have proven to be effective data sources for this task, existing methods either heavily rely on pre-defined schemas, which struggle to adapt to evolving operational contexts, or lack interpretability in their reasoning process, thereby leaving Site Reliability Engineers (SREs) confused. In this paper, we conduct a comprehensive study on how SREs localize the root cause of failures, drawing insights from multiple professional SREs across different organizations. Our investigation reveals that human root cause analysis exhibits three key characteristics: recursiveness, multi-dimensional expansion, and cross-modal reasoning. Motivated by these findings, we introduce RCLAgent, an adaptive root cause localization method for microservice systems that leverages a multi-agent recursion-of-thought framework. RCLAgent employs a novel recursion-of-thought strategy to guide the LLM's reasoning process, effectively integrating data from multiple agents and tool-assisted analysis to accurately pinpoint the root cause. Experimental evaluations on various public datasets demonstrate that RCLAgent achieves superior performance by localizing the root cause using only a single request-outperforming state-of-the-art methods that depend on aggregating multiple requests. These results underscore the effectiveness of RCLAgent in enhancing the efficiency and precision of root cause localization in complex microservice environments.

Ссылки и действия