MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use

2508.16260v1 cs.CL, cs.AI 2025-08-26

Авторы:

Fei Lei, Yibo Yang, Wenxiu Sun, Dahua Lin

Резюме на русском

## Контекст Машинные рассуждения и использование инструментов — ключевые навыки для современных текстовых генераторов и логических систем. Однако существующие бенчмарки, ограниченные синтетическими простыми инструментами и жесткими ограничениями действий, не позволяют эффективно оценить эти навыки. Это влечет за собой недостаточную отражательность реальных средств и сценариев использования. Наша мотивация заключается в создании более широкого, реального бенчмарка, который позволит более точно оценивать и улучшать навыки агентного использования инструментов. ## Метод Мы предлагаем **MCPVerse** — бенчмарк, основанный на реальных инструментах и их реальном применении. Он включает более 550 инструментов, активных в различных сферах (от кулинарии до технических задач). Бенчмарк использует выделение действий в точку отклика, используя реальное время и корректные результаты для оценки. Архитектура бенчмарка представляет собой сложную иерархию элементов, позволяющую выполнять широкие действия, от сложности выбора рецепта до трехмерной моделирования. ## Результаты Мы оценивали несколько агентных моделей, включая Claude-4-Sonnet и GPT-4, в разных режимах (Oracle, Standard, Max-Scale). Эксперименты показали, что значительное количество моделей представляет собой недостаточно выразительные решения, теряя эффективность при увеличении количества инструментов. Однако модели, основанные на агентном подходе, такие как Claude-4-Sonnet, лучше успешно использовали широкий диапазон инструментов, чтобы повысить точность. ## Значимость МCPVerse может использоваться в различных областях, включая разработку новых моделей жизнеспособных систем и систем логического мышления. Он демонстрирует возможность улучшения моделей, позволяя их работать в более широких, реальных сценариях. Преимущества включают более точное и реалистичное тестирование, а также улучшение возможностей для пользовательских систем, вовлеченных в решение сложных задач. ## Выводы МCPVerse является бенчмарком, который может существенно повлиять на область агентного использования инструментов. Это важно для развития моделей, которые могут эффективно работать в реальных условиях. Его развитие и применение могут привести к новым моделям, которые не только повысят точность, но и улучшат возможности для решения сложных, реальных задач.

Abstract

Large Language Models (LLMs) are evolving from text generators into reasoning agents. This transition makes their ability to use external tools a critical capability. However, evaluating this skill presents a significant challenge. Existing benchmarks are often limited by their reliance on synthetic tools and severely constrained action spaces. To address these limitations, we introduce MCPVerse, an expansive, real-world benchmark for evaluating agentic tool use. MCPVerse integrates more than 550 real-world, executable tools to create an unprecedented action space exceeding 140k tokens, and employs outcome-based evaluation with real-time ground truth for time-sensitive tasks. We benchmarked the state-of-the-art LLMs across three modes (Oracle, Standard, and Max-Scale), revealing that while most models suffer performance degradation when confronted with larger tool sets, the agentic models, such as Claude-4-Sonnet, can effectively leverage expanded exploration spaces to improve accuracy. This finding not only exposes the limitations of state-of-the-art models in complex, real-world scenarios but also establishes MCPVerse as a critical benchmark for measuring and advancing agentic tool use capabilities.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Mitigating Self-Preference by Authorship Obfuscation

Dynamic Alignment for Collective Agency: Toward a Scalable Self-Improving Framew...

Grounded Multilingual Medical Reasoning for Question Answering with Large Langua...

Faithfulness metric fusion: Improving the evaluation of LLM trustworthiness acro...

Retrieving Semantically Similar Decisions under Noisy Institutional Labels: Robu...

Навигация