Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation
2508.05508v1
cs.AI
2025-08-08
Авторы:
Roshita Bhonsle, Rishav Dutta, Sneha Vavilapalli, Harsh Seth, Abubakarr Jaye, Yapei Chang, Mukund Rungta, Emmanuel Aboah Boateng, Sadid Hasan, Ehi Nosakhare, Soundar Srinivasan
Резюме на русском
---
title: КОНТЕКСТ И ПРОБЛЕМАТИКА
---
### message
# КОНТЕКСТ И ПРОБЛЕМАТИКА
С распространением фундаментальных моделей-агентов в различных областях автоматизации и принятия решений становится все более актуальной необходимость в надежной системе оценки их результатов. Традиционные подходы, такие как LLM-as-a-Judge, ограничены оценкой только финальных выходных данных агента, не учитывая важный аспект – пошаговое рассуждение, которое лежит в основе агентского процесса принятия решений. Такой подход недостаточно полный, особенно когда речь идет об агентах, выполняющих сложные, многоступенчатые задачи.
Другой класс решений – Agent-as-a-Judge – предлагает использовать один агент для оценки результатов другого. Однако эти системы часто специализированы на узких доменах, что ограничивает их применимость в широком спектре задач. Кроме того, существующие подходы недостаточно гибкие для оценки агентского поведения в различных контекстах, что создает проблему при работе в многообразных сферах применения.
В этой статье авторы предлагают решение данной проблемы, представляя универсальный и модульный фреймворк для оценки задач, выполняемых агентами. Фреймворк предназначен для эмуляции человеческого подхода к оценке, разбивая задачу на подзадачи и проверяя каждый шаг на основе доступных данных, включая выходные данные и рассуждения агента. Такой подход стремится обеспечь полноту и консистентность оценки, независимо от домена задачи.
# ПРЕДЛОЖЕННЫЙ МЕТОД
Предлагаемый фреймворк Auto-Eval Judge основывается на модульной структуре, где каждый модуль отвечает за конкретный аспект оценки. Он разделяет задачу на подзадачи, анализируя пошаговое выполнение и проверяя соответствие каждого шага заданным критериям. Фреймворк использует информацию из выходных данных агента и его рассуждений для проведения оценки.
Ключевым элементом фреймворка является его модульность, которая позволяет адаптировать систему к разным типам задач без необходимости перекладывания всей системы. Каждый модуль фокусируется на отдельном аспекте, таком как логическая корректность, соответствие критериям задачи или эффективность выполнения. Затем, результаты каждого модуля агрегируются для формирования конечного вердикта о успешности задачи.
Для валидации фреймворка авторы применили его к Magentic-One Actor Agent, оценивая его производительность на двух наборах данных: GAIA и BigCodeBench. Это позволило сравнить производительность с существующим базовым решением, основанным на GPT-4o.
# ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
В экспериментах фреймворк Auto-Eval Judge демонстрирует значительное улучшение по сравнению с базовым подходом LLM-as-a-Judge. На датасете GAIA фреймворк показал рост точности выравнивания с человеческой оценкой на 4.76%, а на BigCodeBench это значение составило 10.52%. Эти результаты показывают, что предлагаемый фреймворк более точно отражает человеческий взгляд на успешность выполнения задачи.
Кроме того, эксперименты показали, что фреймворк успешно оценивает пошаговое выполнение задач, обеспечивая более глубокий анализ по сравнению с традиционными подходами, которые ограничены оценкой только финальных результатов.
# ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предлагаемый фреймворк имеет широкие практические применения в различных областях, где требуется оценка агентских решений. Он может быть использован в таких сферах, как автоматизация бизнес-процессов, медицинская диагностика, финансовые прогнозы и другие области, требующие высокого уровня точности и прозрачности принятия решений.
Основным преимуществом фреймворка является его универсальность и модульность, которые позволяют применять его в различных доменах без существенных изменений. Благодаря этому, он может стать ключевым инструментом для повышения надежности и эффективности агентских систем.
# ВЫВОДЫ И ПЕРСПЕКТИВЫ
Auto-Eval Judge представляет собой важный шаг к созданию универсального фреймворка для оценки задач, выполняемых агентами. Благодаря его модульной структуре и пошаговому подходу к оценке, он обеспечивает более точную и человечески подобную оценку, независимо от домена задачи.
В будущем, этот фреймворк может быть расширен для включения дополнительных модулей, ориентированных на конкретные домены, а также для интеграции с более новыми моделями и методами обработки данных. Это открывает пути для дальнейшего улучшения точности и гибкости системы, что делает его перспективным инструментом для развития агентских технологий.
Abstract
The increasing adoption of foundation models as agents across diverse domains
necessitates a robust evaluation framework. Current methods, such as
LLM-as-a-Judge, focus only on final outputs, overlooking the step-by-step
reasoning that drives agentic decision-making. Meanwhile, existing
Agent-as-a-Judge systems, where one agent evaluates another's task completion,
are typically designed for narrow, domain-specific settings. To address this
gap, we propose a generalizable, modular framework for evaluating agent task
completion independent of the task domain. The framework emulates human-like
evaluation by decomposing tasks into sub-tasks and validating each step using
available information, such as the agent's output and reasoning. Each module
contributes to a specific aspect of the evaluation process, and their outputs
are aggregated to produce a final verdict on task completion. We validate our
framework by evaluating the Magentic-One Actor Agent on two benchmarks, GAIA
and BigCodeBench. Our Judge Agent predicts task success with closer agreement
to human evaluations, achieving 4.76% and 10.52% higher alignment accuracy,
respectively, compared to the GPT-4o based LLM-as-a-Judge baseline. This
demonstrates the potential of our proposed general-purpose evaluation
framework.
Ссылки и действия
Дополнительные ресурсы: