A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks

2509.14285v1 cs.CR, cs.LG 2025-09-20

Авторы:

S M Asif Hossain, Ruksat Khan Shayoni, Mohd Ruhul Ameen, Akif Islam, M. F. Mridha, Jungpil Shin

Резюме на русском

## Контекст Продвинутые технологии генерирующих текст, такие как Large Language Models (LLM), становятся важной составляющей современных систем. Однако эти модели чувствительны к **prompt injection attacks**, при которых вредоносные команды встраиваются во входные данные, чтобы изменить поведение модели. Эти атаки могут привести к утечке конфиденциальных данных, выполнению вредоносного кода и другим нежелательным последствиям. Недостаточная безопасность LLM поднимает вопросы о доверии к их применению в критически важных приложениях. Необходимо разработать эффективные методы защиты, которые способны обнаруживать и отвращать такие атаки в реальном времени. ## Метод Мы предлагаем **Multi-Agent LLM Defense Pipeline**, которая использует несколько специализированных LLM-агентов, работающих в организованной системе. Основной элемент — **Chain-of-Agents Pipeline**, в которой каждый агент выполняет специальную задачу, такую как детектирование подозрительных входных данных или контроль логической корректности ответов. Для улучшения гибкости и ресурсосбережения мы также исследовали **Hierarchical Coordinator-Based System**, где высокоуровневый агент управляет подчиненными. Архитектура основана на обученных моделях, которые могут анализировать потоки данных, определяя нестандартные поведения и принятие решений в реальном времени. ## Результаты Мы провели серьезные эксперименты на двух LLM-платформах: ChatGLM и Llama2. В тестовом наборе были включены 55 разных типов prompt injection attacks, разделенных на 8 категорий, с общим количеством 400 атак. Без защиты, Attack Success Rate (ASR) достигал 30% для ChatGLM и 20% для Llama2. Наша многоагентная пайплайн-система полностью инвалидировала все атаки, снизив ASR до 0% на двух платформах. Мы также проверили устойчивость системы к разным типам атак, включая direct overrides, code execution, data exfiltration, и obfuscation. Метод позволил сохранить высокую точность в обработке верного ввода пользователей. ## Значимость Наша пайплайн-система может быть применена в различных критически важных системах, включая системы консультирования, системы безопасности, и системы управления. Она обеспечивает высокую устойчивость к сложным attack-методам с нулевым ущербным эффектом на функциональность. Этот подход может стать ключевым элементом в развитии безопасных систем на основе генерирующих моделей языка, обеспечивая доверие к их использованию в сложных, важных для бизнеса приложениях. ## Выводы Мы успешно разработали и проверили многоагентную пайплайн-систему для защиты от prompt injection attacks. Наши результаты показали 100% mitigation-эффект во всех тестовых сценариях. Мы собираемся продолжать улучшать нашу модель, исследуя дальней

Abstract

Prompt injection attacks represent a major vulnerability in Large Language Model (LLM) deployments, where malicious instructions embedded in user inputs can override system prompts and induce unintended behaviors. This paper presents a novel multi-agent defense framework that employs specialized LLM agents in coordinated pipelines to detect and neutralize prompt injection attacks in real-time. We evaluate our approach using two distinct architectures: a sequential chain-of-agents pipeline and a hierarchical coordinator-based system. Our comprehensive evaluation on 55 unique prompt injection attacks, grouped into 8 categories and totaling 400 attack instances across two LLM platforms (ChatGLM and Llama2), demonstrates significant security improvements. Without defense mechanisms, baseline Attack Success Rates (ASR) reached 30% for ChatGLM and 20% for Llama2. Our multi-agent pipeline achieved 100% mitigation, reducing ASR to 0% across all tested scenarios. The framework demonstrates robustness across multiple attack categories including direct overrides, code execution attempts, data exfiltration, and obfuscation techniques, while maintaining system functionality for legitimate queries.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

One Detector Fits All: Robust and Adaptive Detection of Malicious Packages from ...

Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis

A Hybrid Deep Learning and Anomaly Detection Framework for Real-Time Malicious U...

Leveraging Large Language Models to Bridge On-chain and Off-chain Transparency i...

Real-PGDN: A Two-level Classification Method for Full-Process Recognition of New...

Навигация