MCP-Guard: A Defense Framework for Model Context Protocol Integrity in Large Language Model Applications

2508.10991v1 cs.CR, cs.AI 2025-08-19

Авторы:

Wenpeng Xing, Zhonghao Qi, Yupeng Qin, Yilin Li, Caini Chang, Jiahui Yu, Changting Lin, Zhenzhen Xie, Meng Han

Резюме на русском

## Контекст Прогресс в области глубокого обучения позволил развитию сложных моделей языка, таких как Large Language Models (LLMs). Эти модели становятся центральными в различных приложениях, от поиска информации до помощников в производстве. Однако их развитие привёл к новым угрозам безопасности, которые необходимо устранить. Одним из основных источников этих угроз является интеграция LLMs с внешними инструментами с помощью протоколов, таких как Model Context Protocol (MCP). Этот протокол позволяет LLMs интерактивно работать с инструментами посредством контекстных запросов, но он также открывает возможность совершения атак, таких как prompt injection, data exfiltration или другие сбои в протоколе. Обеспечение безопасности в этих системах является критическим, поскольку угрозы могут привести к серьёзным последствиям в сфере бизнеса и личной жизни. ## Метод MCP-Guard представляет собой устройственную, уровневую систему защиты, разработанную для обеспечения безопасности взаимодействия LLMs с инструментами через MCP. Этот метод использует трёхэтапную подход, основанную на статическом анализе, нейронной сети и модели E5. В первом этапе используется статический сканер для выявления простоты угроз, таких как специфичные слова и выражения в запросах. Во втором этапе распознаются более сложные атаки, используя нейронную сеть, которая анализирует семантику запросов. Наконец, в третьем этапе применяется модель E5, которая достигает высокой точности (96.01%) в обнаружении правильных и атакующих запросов. Чтобы поддерживать развитие и исследования, была создана MCP-AttackBench, коллекция 70,000+ примеров, основанных на реальных данных и дополненных GPT-4. Эта база данных позволяет провести тщательные эксперименты и сравнить различные методы защиты. ## Результаты Наши эксперименты показали, что MCP-Guard обеспечивает эффективное обнаружение атак с минимальными ошибками. В тестах на MCP-AttackBench, модель показала результаты, превышающие 95% в обнаружении простых и сложных угроз. Благодаря трёхэтапной структуре, MCP-Guard не только обнаруживает угрозы, но и снижает риск ложных срабатываний. Классификационные результаты подтверждают, что система работает быстро и точно, даже при высокой сложности запросов. Эти результаты демонстрируют, что MCP-Guard может быть эффективно использовано в крупных системах с использованием LLMs, обеспечивая доверие в их безопасности. ## Значимость Мы видим, что MCP-Guard может использоваться в различных сферах бизнеса, где LLM применяется, включая помощники, обратную связь и прогнозирование. Оно не только обеспечивает безопасность, но и повышает уровень надежности, разрешая большинство

Abstract

The integration of Large Language Models (LLMs) with external tools via protocols such as the Model Context Protocol (MCP) introduces critical security vulnerabilities, including prompt injection, data exfiltration, and other threats. To counter these challenges, we propose MCP-Guard, a robust, layered defense architecture designed for LLM--tool interactions. MCP-Guard employs a three-stage detection pipeline that balances efficiency with accuracy: it progresses from lightweight static scanning for overt threats and a deep neural detector for semantic attacks, to our fine-tuned E5-based model achieves (96.01) accuracy in identifying adversarial prompts. Finally, a lightweight LLM arbitrator synthesizes these signals to deliver the final decision while minimizing false positives. To facilitate rigorous training and evaluation, we also introduce MCP-AttackBench, a comprehensive benchmark of over 70,000 samples. Sourced from public datasets and augmented by GPT-4, MCP-AttackBench simulates diverse, real-world attack vectors in the MCP format, providing a foundation for future research into securing LLM-tool ecosystems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MCP-Guard: A Defense Framework for Model Context Protocol Integrity in Large Language Model Applications

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация