DCMI: A Differential Calibration Membership Inference Attack Against Retrieval-Augmented Generation

2509.06026v1 cs.CR, cs.AI, cs.LG 2025-09-12
Авторы:

Xinyu Gao, Xiangtao Meng, Yingkai Dong, Zheng Li, Shanqing Guo

Резюме на русском

## Контекст Retrieval-Augmented Generation (RAG) — это мощная архитектура, которая объединяет генерирующую модель с внешними базами данных, чтобы уменьшить "халтуринг" (hallucinations) в ответах. Она найдена в большинстве современных приложений, таких как системы вопроса-ответа, где необходимо обратиться к широкой информационной базе. Однако эта модель также вводит новые риски, особенно для обработки конфиденциальных данных. Например, RAG может раскрыть, была ли конкретная запись включена в сводку, что создает риск дыры в защите личных данных. Многие методы подхода Membership Inference Attack (MIA) стараются выявить такие дыры, но часто сталкиваются с тем, что результаты могут быть повлияны не только найденными документами, но и недостающими. Наша команда разработала **DCMI** (Differential Calibration Membership Inference Attack), чтобы более точно определять, были ли документы включены в вывод RAG. ## Метод DCMI использует **метод дифференциальной калибровки**, чтобы различать ответы RAG относительно документов, которые были включены в вывод в отношении запроса. Чтобы сделать это, мы используем **перерисовку запроса** (query perturbation), которая меняет запрос с минимальным изменением смысла, но с большим воздействием на нейросетевую модель. Эти перерисованные запросы помогают нам определить, насколько сильно ответы RAG зависят от отдельных документов. Мы также анализируем **пространство вариаций** между ответами на документы-участников (members) и неучастников (non-members), чтобы выделить сильные сигналы, связанные с включенными документами. DCMI работает так, чтобы исключить значительный шум, который мог быть вызван невинными документами, которые не были включены в вывод. ## Результаты Мы провели эксперименты на двух уровнях — симуляционных и реальных системах RAG. В первых, мы использовали Flan-T5 в качестве модели RAG и синтетические данные для эмуляции различных уровней включения документов. Результаты показали, что DCMI опередила базовый метод MBA (Maximum Calibration MIA) над уровнем доверия, повысив AUC (Area Under Curve) до **97.42%** и достигнув **94.35%** точности с значительным увеличением (плюс 40%) по сравнению с лучшим базовым решением. Мы также протестировали DCMI на **Dify** и **MaxKB** — двух реальных платформах RAG. Там, DCMI показала выигрыш в **10%-20%** по сравнению с MBA, что подтверждает эффективность нашего подхода в реальных условиях. ## Значимость Наша работа открывает новые возможности для изучения проблемы защиты конфиденциальности в RAG-системах. Особенно важно, что DCMI не только демонстрирует эффективность в синтетических условиях, но и показывает выигрыш в реальных платформах. Это значит, что наш подход может быть применен

Abstract

While Retrieval-Augmented Generation (RAG) effectively reduces hallucinations by integrating external knowledge bases, it introduces vulnerabilities to membership inference attacks (MIAs), particularly in systems handling sensitive data. Existing MIAs targeting RAG's external databases often rely on model responses but ignore the interference of non-member-retrieved documents on RAG outputs, limiting their effectiveness. To address this, we propose DCMI, a differential calibration MIA that mitigates the negative impact of non-member-retrieved documents. Specifically, DCMI leverages the sensitivity gap between member and non-member retrieved documents under query perturbation. It generates perturbed queries for calibration to isolate the contribution of member-retrieved documents while minimizing the interference from non-member-retrieved documents. Experiments under progressively relaxed assumptions show that DCMI consistently outperforms baselines--for example, achieving 97.42% AUC and 94.35% Accuracy against the RAG system with Flan-T5, exceeding the MBA baseline by over 40%. Furthermore, on real-world RAG platforms such as Dify and MaxKB, DCMI maintains a 10%-20% advantage over the baseline. These results highlight significant privacy risks in RAG systems and emphasize the need for stronger protection mechanisms. We appeal to the community's consideration of deeper investigations, like ours, against the data leakage risks in rapidly evolving RAG systems. Our code is available at https://github.com/Xinyu140203/RAG_MIA.

Ссылки и действия