MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use
2508.16260v1
cs.CL, cs.AI
2025-08-26
Авторы:
Fei Lei, Yibo Yang, Wenxiu Sun, Dahua Lin
Резюме на русском
## Контекст
Машинные рассуждения и использование инструментов — ключевые навыки для современных текстовых генераторов и логических систем. Однако существующие бенчмарки, ограниченные синтетическими простыми инструментами и жесткими ограничениями действий, не позволяют эффективно оценить эти навыки. Это влечет за собой недостаточную отражательность реальных средств и сценариев использования. Наша мотивация заключается в создании более широкого, реального бенчмарка, который позволит более точно оценивать и улучшать навыки агентного использования инструментов.
## Метод
Мы предлагаем **MCPVerse** — бенчмарк, основанный на реальных инструментах и их реальном применении. Он включает более 550 инструментов, активных в различных сферах (от кулинарии до технических задач). Бенчмарк использует выделение действий в точку отклика, используя реальное время и корректные результаты для оценки. Архитектура бенчмарка представляет собой сложную иерархию элементов, позволяющую выполнять широкие действия, от сложности выбора рецепта до трехмерной моделирования.
## Результаты
Мы оценивали несколько агентных моделей, включая Claude-4-Sonnet и GPT-4, в разных режимах (Oracle, Standard, Max-Scale). Эксперименты показали, что значительное количество моделей представляет собой недостаточно выразительные решения, теряя эффективность при увеличении количества инструментов. Однако модели, основанные на агентном подходе, такие как Claude-4-Sonnet, лучше успешно использовали широкий диапазон инструментов, чтобы повысить точность.
## Значимость
МCPVerse может использоваться в различных областях, включая разработку новых моделей жизнеспособных систем и систем логического мышления. Он демонстрирует возможность улучшения моделей, позволяя их работать в более широких, реальных сценариях. Преимущества включают более точное и реалистичное тестирование, а также улучшение возможностей для пользовательских систем, вовлеченных в решение сложных задач.
## Выводы
МCPVerse является бенчмарком, который может существенно повлиять на область агентного использования инструментов. Это важно для развития моделей, которые могут эффективно работать в реальных условиях. Его развитие и применение могут привести к новым моделям, которые не только повысят точность, но и улучшат возможности для решения сложных, реальных задач.
Abstract
Large Language Models (LLMs) are evolving from text generators into reasoning
agents. This transition makes their ability to use external tools a critical
capability. However, evaluating this skill presents a significant challenge.
Existing benchmarks are often limited by their reliance on synthetic tools and
severely constrained action spaces. To address these limitations, we introduce
MCPVerse, an expansive, real-world benchmark for evaluating agentic tool use.
MCPVerse integrates more than 550 real-world, executable tools to create an
unprecedented action space exceeding 140k tokens, and employs outcome-based
evaluation with real-time ground truth for time-sensitive tasks. We benchmarked
the state-of-the-art LLMs across three modes (Oracle, Standard, and Max-Scale),
revealing that while most models suffer performance degradation when confronted
with larger tool sets, the agentic models, such as Claude-4-Sonnet, can
effectively leverage expanded exploration spaces to improve accuracy. This
finding not only exposes the limitations of state-of-the-art models in complex,
real-world scenarios but also establishes MCPVerse as a critical benchmark for
measuring and advancing agentic tool use capabilities.
Ссылки и действия
Дополнительные ресурсы: