AIP: Subverting Retrieval-Augmented Generation via Adversarial Instructional Prompt

2509.15159v1 cs.CV, cs.CL 2025-09-20
Авторы:

Saket S. Chaturvedi, Gaurav Bagwe, Lan Zhang, Xiaoyong Yuan

Резюме на русском

## Контекст Retrieval-Augmented Generation (RAG) является мощным подходом для повышения качества текстового понимания и генерации в крупных моделях языка (LLMs). Он добавляет внешние данные в поток генеративной модели, чтобы улучшить точность фактов и прозрачность результатов. Однако эта зависимость от внешних источников данных создает новые уязвимости в восстановительной части, а не только в модели языка. Ранее известные атаки на RAG-системы основывались главным образом на сбивании пользовательских запросов, что не всегда возможно в реальной ситуации из-за защищенных или фиксированных входных данных. Этот подход не учитывает более распространенный и скрытый вектор атак — инструкционные промпты, которые часто повторяются, широко распространены и нередко не проверяются на наличие уязвимостей. Наша работа сосредотачивается на том, как эти промпты могут быть использованы в атаках, которые могут повлиять на выводы RAG-систем, не внося видимых изменений в интерфейсе или поведение модели. ## Метод Мы предлагаем вновь открытое подход к атакам, называемое Adversarial Instructional Prompt (AIP). Основная идея заключается в том, чтобы целенаправленно изменять инструкционные промпты, которые используются в RAG-системах, чтобы отклонить их выводы в нежелательном направлении. Для этого мы основываемся на трех основных принципах: (1) **naturalness** — изменения промптов должны быть незаметны для пользователей; (2) **utility** — промпты должны оставаться полезными для задачи; (3) **robustness** — атака должна оставаться эффективной в разных контекстах и вариациях запросов. Для эволюции таких промптов мы предлагаем генетический алгоритм с оптимизацией на нескольких задачах: поддержание целевой функции атаки, сохранения качества выполнения задачи и незаметности атаки. ## Результаты Мы проводили эксперименты на нескольких сценариях использования RAG-систем с использованием различных вариантов запросов. Мы сравнивали AIP с другими методами атак на RAG и показали, что он достигает высокой степени эффективности: ASR (Adversarial Success Rate) до 95.23%, что значительно превышает результаты предыдущих методов. Эксперименты показали, что AIP успешно воздействует на RAG-системы, изменяя их выводы без изменения входных данных. Это указывает на серьезную уязвимость в инфраструктуре RAG, которую необходимо учитывать при проектировании безопасных систем. ## Значимость AIP открывает возможность для взлома RAG-систем, используя довольно невидимый вектор — инструкционные промпты. Это открытие подчеркивает необходимость более тщательной проверки и сертификации таких промптов, которые часто считаются безопасными. Наш подход имеет широкие приложения в сферах, г

Abstract

Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by retrieving relevant documents from external sources to improve factual accuracy and verifiability. However, this reliance introduces new attack surfaces within the retrieval pipeline, beyond the LLM itself. While prior RAG attacks have exposed such vulnerabilities, they largely rely on manipulating user queries, which is often infeasible in practice due to fixed or protected user inputs. This narrow focus overlooks a more realistic and stealthy vector: instructional prompts, which are widely reused, publicly shared, and rarely audited. Their implicit trust makes them a compelling target for adversaries to manipulate RAG behavior covertly. We introduce a novel attack for Adversarial Instructional Prompt (AIP) that exploits adversarial instructional prompts to manipulate RAG outputs by subtly altering retrieval behavior. By shifting the attack surface to the instructional prompts, AIP reveals how trusted yet seemingly benign interface components can be weaponized to degrade system integrity. The attack is crafted to achieve three goals: (1) naturalness, to evade user detection; (2) utility, to encourage use of prompts; and (3) robustness, to remain effective across diverse query variations. We propose a diverse query generation strategy that simulates realistic linguistic variation in user queries, enabling the discovery of prompts that generalize across paraphrases and rephrasings. Building on this, a genetic algorithm-based joint optimization is developed to evolve adversarial prompts by balancing attack success, clean-task utility, and stealthiness. Experimental results show that AIP achieves up to 95.23% ASR while preserving benign functionality. These findings uncover a critical and previously overlooked vulnerability in RAG systems, emphasizing the need to reassess the shared instructional prompts.

Ссылки и действия