A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks
2509.14285v1
cs.CR, cs.LG
2025-09-20
Авторы:
S M Asif Hossain, Ruksat Khan Shayoni, Mohd Ruhul Ameen, Akif Islam, M. F. Mridha, Jungpil Shin
Резюме на русском
## Контекст
Продвинутые технологии генерирующих текст, такие как Large Language Models (LLM), становятся важной составляющей современных систем. Однако эти модели чувствительны к **prompt injection attacks**, при которых вредоносные команды встраиваются во входные данные, чтобы изменить поведение модели. Эти атаки могут привести к утечке конфиденциальных данных, выполнению вредоносного кода и другим нежелательным последствиям. Недостаточная безопасность LLM поднимает вопросы о доверии к их применению в критически важных приложениях. Необходимо разработать эффективные методы защиты, которые способны обнаруживать и отвращать такие атаки в реальном времени.
## Метод
Мы предлагаем **Multi-Agent LLM Defense Pipeline**, которая использует несколько специализированных LLM-агентов, работающих в организованной системе. Основной элемент — **Chain-of-Agents Pipeline**, в которой каждый агент выполняет специальную задачу, такую как детектирование подозрительных входных данных или контроль логической корректности ответов. Для улучшения гибкости и ресурсосбережения мы также исследовали **Hierarchical Coordinator-Based System**, где высокоуровневый агент управляет подчиненными. Архитектура основана на обученных моделях, которые могут анализировать потоки данных, определяя нестандартные поведения и принятие решений в реальном времени.
## Результаты
Мы провели серьезные эксперименты на двух LLM-платформах: ChatGLM и Llama2. В тестовом наборе были включены 55 разных типов prompt injection attacks, разделенных на 8 категорий, с общим количеством 400 атак. Без защиты, Attack Success Rate (ASR) достигал 30% для ChatGLM и 20% для Llama2. Наша многоагентная пайплайн-система полностью инвалидировала все атаки, снизив ASR до 0% на двух платформах. Мы также проверили устойчивость системы к разным типам атак, включая direct overrides, code execution, data exfiltration, и obfuscation. Метод позволил сохранить высокую точность в обработке верного ввода пользователей.
## Значимость
Наша пайплайн-система может быть применена в различных критически важных системах, включая системы консультирования, системы безопасности, и системы управления. Она обеспечивает высокую устойчивость к сложным attack-методам с нулевым ущербным эффектом на функциональность. Этот подход может стать ключевым элементом в развитии безопасных систем на основе генерирующих моделей языка, обеспечивая доверие к их использованию в сложных, важных для бизнеса приложениях.
## Выводы
Мы успешно разработали и проверили многоагентную пайплайн-систему для защиты от prompt injection attacks. Наши результаты показали 100% mitigation-эффект во всех тестовых сценариях. Мы собираемся продолжать улучшать нашу модель, исследуя дальней
Abstract
Prompt injection attacks represent a major vulnerability in Large Language
Model (LLM) deployments, where malicious instructions embedded in user inputs
can override system prompts and induce unintended behaviors. This paper
presents a novel multi-agent defense framework that employs specialized LLM
agents in coordinated pipelines to detect and neutralize prompt injection
attacks in real-time. We evaluate our approach using two distinct
architectures: a sequential chain-of-agents pipeline and a hierarchical
coordinator-based system. Our comprehensive evaluation on 55 unique prompt
injection attacks, grouped into 8 categories and totaling 400 attack instances
across two LLM platforms (ChatGLM and Llama2), demonstrates significant
security improvements. Without defense mechanisms, baseline Attack Success
Rates (ASR) reached 30% for ChatGLM and 20% for Llama2. Our multi-agent
pipeline achieved 100% mitigation, reducing ASR to 0% across all tested
scenarios. The framework demonstrates robustness across multiple attack
categories including direct overrides, code execution attempts, data
exfiltration, and obfuscation techniques, while maintaining system
functionality for legitimate queries.
Ссылки и действия
Дополнительные ресурсы: