LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries
2508.15760v1
cs.CL, cs.AI
2025-08-23
Авторы:
Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
Резюме на русском
## Контекст
В последние годы становится важной задачей развития систем, способных решать сложные задачи, в том числе с использованием различных инструментов. Модель Context Protocol (MCP) предлагает стандартизованный подход для интеграции многообразных инструментов, улучшая возможности систем для решения многошаговых проблем. Однако существует значительная проблема: трудность в эффективном и последовательном использовании этих инструментов в реальных, динамичных условиях. Для оценки и улучшения таких систем необходимы более реалистичные и сложные тестовые среды.
## Метод
LiveMCP-101 является бенчмарком, состоящим из 101 запросов, специально подобранных для проверки возможностей систем, использующих MCP-инструменты. Запросы были сформированы с помощью последовательных этапов редактирования с помощью глубокого обучения (LLM) и подробного ручного анализа. Общая сложность задач включает веб-поиск, работу с файлами, математическое моделирование и анализ данных. Метод оценки основывается на сравнении реальных результатов с предварительно определенным планом выполнения, что дает более точное отображение реального ситуационного контекста.
## Результаты
В ходе экспериментов участвовали различные модели, включая лидеры в области глубокого обучения. Результаты показали, что даже усовершенствованные модели не могут достичь высокой точности — успешность решения задач остается ниже 60%. Анализ включал в себя расстановку ошибок, определение эффективности использования токенов и проблемы в управлении инструментами. Эти выводы позволяют выявить конкретные направления для улучшения моделей и отработки более отказоустойчивых стратегий для инструментов.
## Значимость
LiveMCP-101 представляет собой важный инструмент для проверки и развития систем с использованием MCP в реальных условиях. Он может быть применен в сферах, требующих автоматизации, например, в управлении проектами, медицинских приложениях и сервисах поддержки. Особый потенциал LiveMCP-101 заключается в том, что он позволяет отслеживать и улучшать эффективность моделей в решении сложных задач, становясь ключевым элементом развития совершенно автономных AI-систем.
## Выводы
LiveMCP-101 устанавливает новый стандарт для тестирования и оценки систем, использующих MCP, в реальных условиях. Основными достижениями являются идеология строгой оценки и раскрытие различных недостатков в текущих моделях. Будущие исследования будут сфокусированы на усовершенствовании стратегий управления инструментами, увеличении точности решений и развитии более прочных систем, способных эффективно решать много
Abstract
Tool calling has emerged as a critical capability for AI agents to interact
with the real world and solve complex tasks. While the Model Context Protocol
(MCP) provides a powerful standardized framework for tool integration, there is
a significant gap in benchmarking how well AI agents can effectively solve
multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In
this work, we present LiveMCP-101, a benchmark of 101 carefully curated
real-world queries, refined through iterative LLM rewriting and manual review,
that require coordinated use of multiple MCP tools including web search, file
operations, mathematical reasoning, and data analysis. Moreover, we introduce a
novel evaluation approach that leverages ground-truth execution plans rather
than raw API outputs, better reflecting the evolving nature of real-world
environments. Experiments show that even frontier LLMs achieve a success rate
below 60\%, highlighting major challenges in tool orchestration. Detailed
ablations and error analysis further reveal distinct failure modes and
inefficiencies in token usage, pointing to concrete directions for advancing
current models. LiveMCP-101 sets a rigorous standard for evaluating real-world
agent capabilities, advancing toward autonomous AI systems that reliably
execute complex tasks through tool use.
Ссылки и действия
Дополнительные ресурсы: