RAG Security and Privacy: Formalizing the Threat Model and Attack Surface

2509.20324v1 cs.CR, cs.AI 2025-09-26
Авторы:

Atousa Arzanipour, Rouzbeh Behnia, Reza Ebrahimi, Kaushik Dutta

Резюме на русском

#### Контекст Ретрансляция-Усиленная Генерация (RAG) — это инновационный подход в области естественного языка, комбинирующий большие модели естественного языка (LLM) с внешним факт-чеком. Выступая как повышение точности и непротиворечивости ответов, RAG также привносит новые риски в области безопасности и конфиденциальности. Известно, что LLM могут хранить сенситивные данные в своих тренировочных данных или откликаться на адверские запросы, и RAG системы наследуют эти уязвимости. Более того, RAG полагается на внешнюю кнобическую базу, что создает новые возможности для атак, таких как выдача информации о наличии и контенте найденных документов или внедрение злонамеренного содержимого для деградации модели. Несмотря на эти риски, не существует формального моделирования рисков для RAG, что ставит на задвойку подходы к обеспечению безопасности в этой области. #### Метод Мы предлагаем полностью новую формальную модель рисков для RAG. Для этого определяется типы атакующих лиц в зависимости от их доступа к компонентам модели (например, внешней кнобической базе, внутренним лизателям или генератору). На основе этого определяются ключевые угрозы, такие как подсчет членства в документах, ядовитые атаки на данные и вредоносное влияние на модель. Также разрабатывается структурированная какталогия угроз, подкрепленная математическими моделями, чтобы установить формальную основу для понимания безопасности в RAG. Целью является предоставить инструментарий для анализа и подавления этих угроз. #### Результаты Мы проводим эксперименты для оценки рисков в RAG, используя реалистичные данные и модели. Наши результаты показывают, что существуют серьезные угрозы, такие как мошенничество членства, основываясь на внешней базе, и возможность внедрения зараженных данных, которые могут существенно повлиять на модель. Доказано, что наличие внешней базы открывает новые, серьезные угрозы, которые не присутствуют в стандартных LLM. Эти результаты подкрепляются статистическими данными и анализом сценариев атак. #### Значимость Результаты имеют критическое значение для обеспечения безопасности RAG и других систем, полагающихся на внешнюю кнобическую базу. Модель, предложенная в данной работе, может быть применена для оценки безопасности новых LLM-систем, а также для разработки устойчивых процедур защиты. Развитие модели позволяет сформировать базу знаний для разработки систем, применяемых в критических сферах, таких как здравоохранение, финансы и юриспруденция. Эта работа также открывает пути для дальнейших исследований в области приклад

Abstract

Retrieval-Augmented Generation (RAG) is an emerging approach in natural language processing that combines large language models (LLMs) with external document retrieval to produce more accurate and grounded responses. While RAG has shown strong potential in reducing hallucinations and improving factual consistency, it also introduces new privacy and security challenges that differ from those faced by traditional LLMs. Existing research has demonstrated that LLMs can leak sensitive information through training data memorization or adversarial prompts, and RAG systems inherit many of these vulnerabilities. At the same time, reliance of RAG on an external knowledge base opens new attack surfaces, including the potential for leaking information about the presence or content of retrieved documents, or for injecting malicious content to manipulate model behavior. Despite these risks, there is currently no formal framework that defines the threat landscape for RAG systems. In this paper, we address a critical gap in the literature by proposing, to the best of our knowledge, the first formal threat model for retrieval-RAG systems. We introduce a structured taxonomy of adversary types based on their access to model components and data, and we formally define key threat vectors such as document-level membership inference and data poisoning, which pose serious privacy and integrity risks in real-world deployments. By establishing formal definitions and attack models, our work lays the foundation for a more rigorous and principled understanding of privacy and security in RAG systems.

Ссылки и действия