Exposing Privacy Risks in Graph Retrieval-Augmented Generation

2508.17222v1 cs.CR, cs.AI, cs.IR 2025-08-27
Авторы:

Jiale Liu, Jiahao Zhang, Suhang Wang

Резюме на русском

## Контекст Retrieval-Augmented Generation (RAG) является мощной методологией для улучшения Large Language Models (LLMs) с помощью внешних и актуальных источников знаний. Граф-ориентированные RAG-системы представляют собой продвинутый подход, использующий структурированные графы для формирования более контекстуально богатых и точных ответов. Однако, проникновение из документов в структурированные графы привносит новые, до сих пор мало исследованные проблемы безопасности и конфиденциальности. Этот труд обобщает эти сложности, сфокусировавшись на проблемах вытеснения конфиденциальных данных из Graph RAG-систем. Мы исследуем возможность извлечения значимых сведений из таких систем, включая текстовые данные и структурированные связи между сущностями. Наши исследования устанавливают критический компромисс: хотя Graph RAG может снизить риск вытеснения неструктурированных данных, она оказывается более уязвима для извлечения структурированных данных, таких как сущности и их отношения. Мы также рассматриваем потенциальные методы защиты, нацеленные на уменьшение этого риска. Этот труд предоставляет основной анализ уникальных задач безопасности, возникающих в граф-ориентированных RAG, и предоставляет рекомендации для создания более безопасных систем. ## Метод Мы разработали собственный подход для проверки уязвимости Graph RAG-систем. Наша методология включает в себя: 1. **Создание атак на вытеснение данных**: Мы разрабатываем направленные атаки, специализированные на извлечении конфиденциальных сведений, включая текстовые фрагменты и структурированные сущности. 2. **Использование графовых знаний**: Мы реализуем методы, которые исследуют структуру графа и используют эти структурные сведения для оптимизации атак. 3. **Экспериментальная модель**: Мы создаем эксперименты, в которых тестовые данные состоят из скрытых графов и целевых полей, включая тексты и сущности. 4. **Анализ уязвимости**: Мы измеряем уязвимость систем к вытеснению данных, сравнивая полученные результаты с различными вариантами защиты и методик. Эти этапы позволяют нам изучить характеристики Graph RAG-систем, относящиеся к конфиденциальности, и определить зоны риска, которые требуют более тщательного изучения. ## Результаты Мы проводили многочисленные эксперименты на разных типах графов и Graph RAG-системах. Наши результаты показывают, что: - **Вытеснение текстовых данных**: Граф-ориентированные RAG-системы существенно снижают риск вытеснения неструктурированных текстовых данных по сравнению с базовыми RAG-системами. - **Уязвимость к вытеснению сущ

Abstract

Retrieval-Augmented Generation (RAG) is a powerful technique for enhancing Large Language Models (LLMs) with external, up-to-date knowledge. Graph RAG has emerged as an advanced paradigm that leverages graph-based knowledge structures to provide more coherent and contextually rich answers. However, the move from plain document retrieval to structured graph traversal introduces new, under-explored privacy risks. This paper investigates the data extraction vulnerabilities of the Graph RAG systems. We design and execute tailored data extraction attacks to probe their susceptibility to leaking both raw text and structured data, such as entities and their relationships. Our findings reveal a critical trade-off: while Graph RAG systems may reduce raw text leakage, they are significantly more vulnerable to the extraction of structured entity and relationship information. We also explore potential defense mechanisms to mitigate these novel attack surfaces. This work provides a foundational analysis of the unique privacy challenges in Graph RAG and offers insights for building more secure systems.

Ссылки и действия