Systematic Analysis of MCP Security

2508.12538v1 cs.CR, cs.AI, cs.SE 2025-08-20
Авторы:

Yongjian Guo, Puzhuo Liu, Wanlun Ma, Zehang Deng, Xiaogang Zhu, Peng Di, Xi Xiao, Sheng Wen

Резюме на русском

#### Контекст Модель Контекстного Протокола (MCP) представляет собой важный стандарт, позволяющий AI-агентам эффективно взаимодействовать с внешними инструментами, улучшая их функциональность. Однако, несмотря на преимущества, MCP также повлекла за собой серьезные угрозы безопасности. Одна из таких угроз — Tool Poisoning Attack (TPA), когда внедряются скрытые поддельные инструкции, которые могут изменять поведение AI-системы. Несмотря на важность этой проблемы, актуальные исследования по MCP сфокусированы на узком кругу вопросов или неконкретных оценках. Данные работы направлены на заполнение этой гапа, обеспечив полный анализ угроз и развитие эффективных защитных стратегий. #### Метод Мы представляем **MCP Attack Library (MCPLIB)** — универсальный метод, который содержит 31 различных методов атак, разделенных на четыре группы: 1) **Direct Tool Injection**, 2) **Indirect Tool Injection**, 3) **Malicious User Attacks**, и 4) **LLM Inherent Attacks**. Для каждого метода мы определяем условия, подходы и результаты. Наша методология включает в себя разработку моделей, симуляцию атак и методики для измерения их эффективности. Это позволяет получить широкий обзор различных атак и сформировать гибкий инструментарий для их анализа. #### Результаты Наши эксперименты проводились на различных наборах данных и системах, используя MCPLIB для оценки эффективности различных атак. Мы выявили ключевые уязвимости, такие как доверительное отношение агентов к описаниям инструментов, чувствительность к файловым атакам, цепочные атаки, которые используют общий контекст, и проблемы в различении внешних данных от исполняемых команд. Эти результаты показали, что основными угрозами являются недостаточная верификация внешних инструментов и недостаточное различение запросов от команд. #### Значимость Наша работа имеет значительную значимость в области безопасности AI. Она может быть применена в различных сферах, включая интеллектуальные системы управления, робототехнику и защиту данных. Благодаря полученным результатам, можно разработать более надежные защитные методы, улучшить MCP-системы и обеспечить безопасность взаимодействия с внешними инструментами. Это также может включить в себя развитие новых моделей, способных более точно определять и отсекать поддельные инструкции. #### Выводы Мы сформировали полный таксономический анализ угроз MCP, представили универсальный фреймворк для анализа атак MCPLIB и провели эмпирический анализ уязвимостей. Наши выводы подтверждают необходимость создания новых защитных методов, возможности усовершенствования существующих моделей и развития безопасных MCP-систем.

Abstract

The Model Context Protocol (MCP) has emerged as a universal standard that enables AI agents to seamlessly connect with external tools, significantly enhancing their functionality. However, while MCP brings notable benefits, it also introduces significant vulnerabilities, such as Tool Poisoning Attacks (TPA), where hidden malicious instructions exploit the sycophancy of large language models (LLMs) to manipulate agent behavior. Despite these risks, current academic research on MCP security remains limited, with most studies focusing on narrow or qualitative analyses that fail to capture the diversity of real-world threats. To address this gap, we present the MCP Attack Library (MCPLIB), which categorizes and implements 31 distinct attack methods under four key classifications: direct tool injection, indirect tool injection, malicious user attacks, and LLM inherent attack. We further conduct a quantitative analysis of the efficacy of each attack. Our experiments reveal key insights into MCP vulnerabilities, including agents' blind reliance on tool descriptions, sensitivity to file-based attacks, chain attacks exploiting shared context, and difficulty distinguishing external data from executable commands. These insights, validated through attack experiments, underscore the urgency for robust defense strategies and informed MCP design. Our contributions include 1) constructing a comprehensive MCP attack taxonomy, 2) introducing a unified attack framework MCPLIB, and 3) conducting empirical vulnerability analysis to enhance MCP security mechanisms. This work provides a foundational framework, supporting the secure evolution of MCP ecosystems.

Ссылки и действия