Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks

2508.13143v1 cs.AI, cs.SE 2025-08-20

Авторы:

Ruofan Lu, Yichen Li, Yintong Huo

Резюме на русском

## Контекст Современные автономные агентные системы, основанные на Large Language Models (LLMs), показали свою способность автоматизировать сложные задачи. Однако существуют существенные проблемы в их эффективности и надёжности. Основной причиной этих проблем является недостаточное понимание причин неудач при выполнении задач. Недостаточное аналитическое внимание уделяется аспектам, таким как взаимодействие, связь между субъектами и последствия неудач. Большинство оценок агентных систем основываются только на измерении успешных результатов, не исследуя возможные причины этих неудач. Данная работа направлена на устранение этой проблемы, предлагая новый подход к анализу неудач в автономных системах. ## Метод Для повышения понимания причин неудач в автономных агентных системах был разработан новый метод. Основной методологией является разработка и использование бенчмарка, состоящего из 34 представительных задач. Эти задачи были специально разработаны для систематического тестирования агентных фреймворков. Для экспериментов были использованы два популярных LLMs (LLaMA и GPT-4) и три различных фреймворка (AgentGPT, AutoGPT и BabyAGI). Оценка производилась путём анализа взаимодействий и связи внутри системы, а также исследования поведения системы в разных стадиях выполнения задачи. ## Результаты Использование нового бенчмарка позволило получить результаты, указывающие на примерно 50% успешности выполнения задач агентными системами. Это значительно ниже ожидаемого результата. Анализ неудач выявил три основных причины: ошибки в планировании, недостаточность выполнения задач и некорректное генерирование ответов. Эти проблемы были систематизированы в трехуровневую таксономию, которая позволяет отслеживать и анализировать каждую стадию процесса выполнения задачи. ## Значимость Результаты имеют большое значение в качестве новых подходов в области разработки автономных агентных систем. Изучение причин неудач позволяет определить зоны улучшения в агентных фреймворках и LLM-системах. Выявленная таксономия может быть использована для разработки более надёжных и эффективных систем, которые будут способны анализировать и корректироваться в процессе выполнения задач. Также результаты могут быть применимы в областях, где необходима высокая надёжность и результативность агентных систем, такие как системы управления, работа с данными и автоматизация. ## Выводы На основе проведённых исследований были выделены три основных причины неудач в автономных системах. Был разработан новый метод, позволяющий выявлять эти проблемы и улучшать агентные системы. Оценка успеш

Abstract

Autonomous agent systems powered by Large Language Models (LLMs) have demonstrated promising capabilities in automating complex tasks. However, current evaluations largely rely on success rates without systematically analyzing the interactions, communication mechanisms, and failure causes within these systems. To bridge this gap, we present a benchmark of 34 representative programmable tasks designed to rigorously assess autonomous agents. Using this benchmark, we evaluate three popular open-source agent frameworks combined with two LLM backbones, observing a task completion rate of approximately 50%. Through in-depth failure analysis, we develop a three-tier taxonomy of failure causes aligned with task phases, highlighting planning errors, task execution issues, and incorrect response generation. Based on these insights, we propose actionable improvements to enhance agent planning and self-diagnosis capabilities. Our failure taxonomy, together with mitigation advice, provides an empirical foundation for developing more robust and effective autonomous agent systems in the future.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows

TaskEval: Synthesised Evaluation for Foundation-Model Tasks

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing,...

Learning to Debug: LLM-Organized Knowledge Trees for Solving RTL Assertion Failu...

Natural Emergent Misalignment from Reward Hacking in Production RL

Навигация