MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark

2508.07575v1 cs.AI 2025-08-13
Авторы:

Shiqing Fan, Xichen Ding, Liang Zhang, Linjian Mo

Резюме на русском

#### Контекст Модели языка с повышенными возможностями (LLMs) становятся все более мощными благодаря возможности интегрировать различные данные и результаты API в контекстную окружающую среду с помощью функциональных вызовов. Обычно используются инструменты, такие как поисковые системы, веб-работники, карты, финансовые системы, файловые системы и браузеры. Однако интеграция этих инструментов требует стандартизации, которая предоставляется Model Context Protocol (MCP). Хотя MCP эффективно обеспечивает контекст, оценка производительности LLMs и AI Agent в области использования MCP-инструментов сталкивается с определенными проблемами. В частности, существуют недостатки в полных данных и бенчмарках для оценки различных MCP-инструментов. Дополнительно, разнообразие форматов ответов от инструментов MCP усложняет процесс оценки. Бенчмарки с высокой успешностью в задачах, таких как программирование и математические задачи, не могут гарантировать такую же успешность на практике, так как результаты зависят от того, на каких MCP-серверах используются инструменты. Кроме того, ограничения контекстного окна LLMs приводят к невозможности вызова многих инструментов в одном запросе, поскольку их описания могут быть достаточно длинными. Чтобы сделать оценку LLMs более объективной и согласованной, мы предлагаем MCPToolBench++ — большой тестовый набор для оценки возможностей LLMs в использовании MCP-инструментов. #### Метод MCPToolBench++ построен на основе маркетплейса более чем 4000 MCP-серверов из 40 категорий, собранных из открытых MCP-рынков и GitHub-сообществ. Бенчмарк включает инструменты, работающие как в одношаговом так и в многошаговом режиме, охватывая различные области, такие как финансы, логистика и интернет-ресурсы. Данные были собраны и проверены вручную, чтобы гарантировать качество и разнообразие. Мы добавили функционал для формирования запросов и синтеза ответов в соответствии с спецификацией MCP. Результаты экспериментов были получены запуском SOTA LLMs с агентскими возможностями, обеспечив достаточную гибкость в анализе производительности. #### Результаты Мы провели эксперименты с несколькими SOTA LLMs, оценивая их возможности работы с MCP-инструментами. Наши результаты показали, что некоторые модели показывают высокую точность и эффективность в одношаговых задачах, но сталкиваются с трудностями при работе с многошаговыми задачами, где требуется координация нескольких инструментов. Особенно заметны проблемы с ответов моделей, когда данные от MCP-инструментов имеют разный формат или содержат ошибки. Бенчмарк позволил нам выявить слабые места в LLMs, та

Abstract

LLMs' capabilities are enhanced by using function calls to integrate various data sources or API results into the context window. Typical tools include search, web crawlers, maps, financial data, file systems, and browser usage, etc. Integrating these data sources or functions requires a standardized method. The Model Context Protocol (MCP) provides a standardized way to supply context to LLMs. However, the evaluation of LLMs and AI Agents' MCP tool use abilities suffer from several issues. First, there's a lack of comprehensive datasets or benchmarks to evaluate various MCP tools. Second, the diverse formats of response from MCP tool call execution further increase the difficulty of evaluation. Additionally, unlike existing tool-use benchmarks with high success rates in functions like programming and math functions, the success rate of real-world MCP tool is not guaranteed and varies across different MCP servers. Furthermore, the LLMs' context window also limits the number of available tools that can be called in a single run, because the textual descriptions of tool and the parameters have long token length for an LLM to process all at once. To help address the challenges of evaluating LLMs' performance on calling MCP tools, we propose MCPToolBench++, a large-scale, multi-domain AI Agent tool use benchmark. As of July 2025, this benchmark is build upon marketplace of over 4k MCP servers from more than 40 categories, collected from the MCP marketplaces and GitHub communities. The datasets consist of both single-step and multi-step tool calls across different categories. We evaluated SOTA LLMs with agentic abilities on this benchmark and reported the results.

Ссылки и действия