AIP: Subverting Retrieval-Augmented Generation via Adversarial Instructional Prompt
2509.15159v1
cs.CV, cs.CL
2025-09-20
Авторы:
Saket S. Chaturvedi, Gaurav Bagwe, Lan Zhang, Xiaoyong Yuan
Резюме на русском
## Контекст
Retrieval-Augmented Generation (RAG) является мощным подходом для повышения качества текстового понимания и генерации в крупных моделях языка (LLMs). Он добавляет внешние данные в поток генеративной модели, чтобы улучшить точность фактов и прозрачность результатов. Однако эта зависимость от внешних источников данных создает новые уязвимости в восстановительной части, а не только в модели языка. Ранее известные атаки на RAG-системы основывались главным образом на сбивании пользовательских запросов, что не всегда возможно в реальной ситуации из-за защищенных или фиксированных входных данных. Этот подход не учитывает более распространенный и скрытый вектор атак — инструкционные промпты, которые часто повторяются, широко распространены и нередко не проверяются на наличие уязвимостей. Наша работа сосредотачивается на том, как эти промпты могут быть использованы в атаках, которые могут повлиять на выводы RAG-систем, не внося видимых изменений в интерфейсе или поведение модели.
## Метод
Мы предлагаем вновь открытое подход к атакам, называемое Adversarial Instructional Prompt (AIP). Основная идея заключается в том, чтобы целенаправленно изменять инструкционные промпты, которые используются в RAG-системах, чтобы отклонить их выводы в нежелательном направлении. Для этого мы основываемся на трех основных принципах: (1) **naturalness** — изменения промптов должны быть незаметны для пользователей; (2) **utility** — промпты должны оставаться полезными для задачи; (3) **robustness** — атака должна оставаться эффективной в разных контекстах и вариациях запросов. Для эволюции таких промптов мы предлагаем генетический алгоритм с оптимизацией на нескольких задачах: поддержание целевой функции атаки, сохранения качества выполнения задачи и незаметности атаки.
## Результаты
Мы проводили эксперименты на нескольких сценариях использования RAG-систем с использованием различных вариантов запросов. Мы сравнивали AIP с другими методами атак на RAG и показали, что он достигает высокой степени эффективности: ASR (Adversarial Success Rate) до 95.23%, что значительно превышает результаты предыдущих методов. Эксперименты показали, что AIP успешно воздействует на RAG-системы, изменяя их выводы без изменения входных данных. Это указывает на серьезную уязвимость в инфраструктуре RAG, которую необходимо учитывать при проектировании безопасных систем.
## Значимость
AIP открывает возможность для взлома RAG-систем, используя довольно невидимый вектор — инструкционные промпты. Это открытие подчеркивает необходимость более тщательной проверки и сертификации таких промптов, которые часто считаются безопасными. Наш подход имеет широкие приложения в сферах, г
Abstract
Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by
retrieving relevant documents from external sources to improve factual accuracy
and verifiability. However, this reliance introduces new attack surfaces within
the retrieval pipeline, beyond the LLM itself. While prior RAG attacks have
exposed such vulnerabilities, they largely rely on manipulating user queries,
which is often infeasible in practice due to fixed or protected user inputs.
This narrow focus overlooks a more realistic and stealthy vector: instructional
prompts, which are widely reused, publicly shared, and rarely audited. Their
implicit trust makes them a compelling target for adversaries to manipulate RAG
behavior covertly.
We introduce a novel attack for Adversarial Instructional Prompt (AIP) that
exploits adversarial instructional prompts to manipulate RAG outputs by subtly
altering retrieval behavior. By shifting the attack surface to the
instructional prompts, AIP reveals how trusted yet seemingly benign interface
components can be weaponized to degrade system integrity. The attack is crafted
to achieve three goals: (1) naturalness, to evade user detection; (2) utility,
to encourage use of prompts; and (3) robustness, to remain effective across
diverse query variations. We propose a diverse query generation strategy that
simulates realistic linguistic variation in user queries, enabling the
discovery of prompts that generalize across paraphrases and rephrasings.
Building on this, a genetic algorithm-based joint optimization is developed to
evolve adversarial prompts by balancing attack success, clean-task utility, and
stealthiness. Experimental results show that AIP achieves up to 95.23% ASR
while preserving benign functionality. These findings uncover a critical and
previously overlooked vulnerability in RAG systems, emphasizing the need to
reassess the shared instructional prompts.
Ссылки и действия
Дополнительные ресурсы: