MCP-Guard: A Defense Framework for Model Context Protocol Integrity in Large Language Model Applications
2508.10991v1
cs.CR, cs.AI
2025-08-19
Авторы:
Wenpeng Xing, Zhonghao Qi, Yupeng Qin, Yilin Li, Caini Chang, Jiahui Yu, Changting Lin, Zhenzhen Xie, Meng Han
Резюме на русском
## Контекст
Прогресс в области глубокого обучения позволил развитию сложных моделей языка, таких как Large Language Models (LLMs). Эти модели становятся центральными в различных приложениях, от поиска информации до помощников в производстве. Однако их развитие привёл к новым угрозам безопасности, которые необходимо устранить. Одним из основных источников этих угроз является интеграция LLMs с внешними инструментами с помощью протоколов, таких как Model Context Protocol (MCP). Этот протокол позволяет LLMs интерактивно работать с инструментами посредством контекстных запросов, но он также открывает возможность совершения атак, таких как prompt injection, data exfiltration или другие сбои в протоколе. Обеспечение безопасности в этих системах является критическим, поскольку угрозы могут привести к серьёзным последствиям в сфере бизнеса и личной жизни.
## Метод
MCP-Guard представляет собой устройственную, уровневую систему защиты, разработанную для обеспечения безопасности взаимодействия LLMs с инструментами через MCP. Этот метод использует трёхэтапную подход, основанную на статическом анализе, нейронной сети и модели E5. В первом этапе используется статический сканер для выявления простоты угроз, таких как специфичные слова и выражения в запросах. Во втором этапе распознаются более сложные атаки, используя нейронную сеть, которая анализирует семантику запросов. Наконец, в третьем этапе применяется модель E5, которая достигает высокой точности (96.01%) в обнаружении правильных и атакующих запросов. Чтобы поддерживать развитие и исследования, была создана MCP-AttackBench, коллекция 70,000+ примеров, основанных на реальных данных и дополненных GPT-4. Эта база данных позволяет провести тщательные эксперименты и сравнить различные методы защиты.
## Результаты
Наши эксперименты показали, что MCP-Guard обеспечивает эффективное обнаружение атак с минимальными ошибками. В тестах на MCP-AttackBench, модель показала результаты, превышающие 95% в обнаружении простых и сложных угроз. Благодаря трёхэтапной структуре, MCP-Guard не только обнаруживает угрозы, но и снижает риск ложных срабатываний. Классификационные результаты подтверждают, что система работает быстро и точно, даже при высокой сложности запросов. Эти результаты демонстрируют, что MCP-Guard может быть эффективно использовано в крупных системах с использованием LLMs, обеспечивая доверие в их безопасности.
## Значимость
Мы видим, что MCP-Guard может использоваться в различных сферах бизнеса, где LLM применяется, включая помощники, обратную связь и прогнозирование. Оно не только обеспечивает безопасность, но и повышает уровень надежности, разрешая большинство
Abstract
The integration of Large Language Models (LLMs) with external tools via
protocols such as the Model Context Protocol (MCP) introduces critical security
vulnerabilities, including prompt injection, data exfiltration, and other
threats. To counter these challenges, we propose MCP-Guard, a robust, layered
defense architecture designed for LLM--tool interactions. MCP-Guard employs a
three-stage detection pipeline that balances efficiency with accuracy: it
progresses from lightweight static scanning for overt threats and a deep neural
detector for semantic attacks, to our fine-tuned E5-based model achieves
(96.01) accuracy in identifying adversarial prompts. Finally, a lightweight LLM
arbitrator synthesizes these signals to deliver the final decision while
minimizing false positives. To facilitate rigorous training and evaluation, we
also introduce MCP-AttackBench, a comprehensive benchmark of over 70,000
samples. Sourced from public datasets and augmented by GPT-4, MCP-AttackBench
simulates diverse, real-world attack vectors in the MCP format, providing a
foundation for future research into securing LLM-tool ecosystems.
Ссылки и действия
Дополнительные ресурсы: