Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation

2508.05508v1 cs.AI 2025-08-08
Авторы:

Roshita Bhonsle, Rishav Dutta, Sneha Vavilapalli, Harsh Seth, Abubakarr Jaye, Yapei Chang, Mukund Rungta, Emmanuel Aboah Boateng, Sadid Hasan, Ehi Nosakhare, Soundar Srinivasan

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА С распространением фундаментальных моделей-агентов в различных областях автоматизации и принятия решений становится все более актуальной необходимость в надежной системе оценки их результатов. Традиционные подходы, такие как LLM-as-a-Judge, ограничены оценкой только финальных выходных данных агента, не учитывая важный аспект – пошаговое рассуждение, которое лежит в основе агентского процесса принятия решений. Такой подход недостаточно полный, особенно когда речь идет об агентах, выполняющих сложные, многоступенчатые задачи. Другой класс решений – Agent-as-a-Judge – предлагает использовать один агент для оценки результатов другого. Однако эти системы часто специализированы на узких доменах, что ограничивает их применимость в широком спектре задач. Кроме того, существующие подходы недостаточно гибкие для оценки агентского поведения в различных контекстах, что создает проблему при работе в многообразных сферах применения. В этой статье авторы предлагают решение данной проблемы, представляя универсальный и модульный фреймворк для оценки задач, выполняемых агентами. Фреймворк предназначен для эмуляции человеческого подхода к оценке, разбивая задачу на подзадачи и проверяя каждый шаг на основе доступных данных, включая выходные данные и рассуждения агента. Такой подход стремится обеспечь полноту и консистентность оценки, независимо от домена задачи. # ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый фреймворк Auto-Eval Judge основывается на модульной структуре, где каждый модуль отвечает за конкретный аспект оценки. Он разделяет задачу на подзадачи, анализируя пошаговое выполнение и проверяя соответствие каждого шага заданным критериям. Фреймворк использует информацию из выходных данных агента и его рассуждений для проведения оценки. Ключевым элементом фреймворка является его модульность, которая позволяет адаптировать систему к разным типам задач без необходимости перекладывания всей системы. Каждый модуль фокусируется на отдельном аспекте, таком как логическая корректность, соответствие критериям задачи или эффективность выполнения. Затем, результаты каждого модуля агрегируются для формирования конечного вердикта о успешности задачи. Для валидации фреймворка авторы применили его к Magentic-One Actor Agent, оценивая его производительность на двух наборах данных: GAIA и BigCodeBench. Это позволило сравнить производительность с существующим базовым решением, основанным на GPT-4o. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах фреймворк Auto-Eval Judge демонстрирует значительное улучшение по сравнению с базовым подходом LLM-as-a-Judge. На датасете GAIA фреймворк показал рост точности выравнивания с человеческой оценкой на 4.76%, а на BigCodeBench это значение составило 10.52%. Эти результаты показывают, что предлагаемый фреймворк более точно отражает человеческий взгляд на успешность выполнения задачи. Кроме того, эксперименты показали, что фреймворк успешно оценивает пошаговое выполнение задач, обеспечивая более глубокий анализ по сравнению с традиционными подходами, которые ограничены оценкой только финальных результатов. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый фреймворк имеет широкие практические применения в различных областях, где требуется оценка агентских решений. Он может быть использован в таких сферах, как автоматизация бизнес-процессов, медицинская диагностика, финансовые прогнозы и другие области, требующие высокого уровня точности и прозрачности принятия решений. Основным преимуществом фреймворка является его универсальность и модульность, которые позволяют применять его в различных доменах без существенных изменений. Благодаря этому, он может стать ключевым инструментом для повышения надежности и эффективности агентских систем. # ВЫВОДЫ И ПЕРСПЕКТИВЫ Auto-Eval Judge представляет собой важный шаг к созданию универсального фреймворка для оценки задач, выполняемых агентами. Благодаря его модульной структуре и пошаговому подходу к оценке, он обеспечивает более точную и человечески подобную оценку, независимо от домена задачи. В будущем, этот фреймворк может быть расширен для включения дополнительных модулей, ориентированных на конкретные домены, а также для интеграции с более новыми моделями и методами обработки данных. Это открывает пути для дальнейшего улучшения точности и гибкости системы, что делает его перспективным инструментом для развития агентских технологий.

Abstract

The increasing adoption of foundation models as agents across diverse domains necessitates a robust evaluation framework. Current methods, such as LLM-as-a-Judge, focus only on final outputs, overlooking the step-by-step reasoning that drives agentic decision-making. Meanwhile, existing Agent-as-a-Judge systems, where one agent evaluates another's task completion, are typically designed for narrow, domain-specific settings. To address this gap, we propose a generalizable, modular framework for evaluating agent task completion independent of the task domain. The framework emulates human-like evaluation by decomposing tasks into sub-tasks and validating each step using available information, such as the agent's output and reasoning. Each module contributes to a specific aspect of the evaluation process, and their outputs are aggregated to produce a final verdict on task completion. We validate our framework by evaluating the Magentic-One Actor Agent on two benchmarks, GAIA and BigCodeBench. Our Judge Agent predicts task success with closer agreement to human evaluations, achieving 4.76% and 10.52% higher alignment accuracy, respectively, compared to the GPT-4o based LLM-as-a-Judge baseline. This demonstrates the potential of our proposed general-purpose evaluation framework.

Ссылки и действия