Exposing Privacy Risks in Graph Retrieval-Augmented Generation
2508.17222v1
cs.CR, cs.AI, cs.IR
2025-08-27
Авторы:
Jiale Liu, Jiahao Zhang, Suhang Wang
Резюме на русском
## Контекст
Retrieval-Augmented Generation (RAG) является мощной методологией для улучшения Large Language Models (LLMs) с помощью внешних и актуальных источников знаний. Граф-ориентированные RAG-системы представляют собой продвинутый подход, использующий структурированные графы для формирования более контекстуально богатых и точных ответов. Однако, проникновение из документов в структурированные графы привносит новые, до сих пор мало исследованные проблемы безопасности и конфиденциальности. Этот труд обобщает эти сложности, сфокусировавшись на проблемах вытеснения конфиденциальных данных из Graph RAG-систем. Мы исследуем возможность извлечения значимых сведений из таких систем, включая текстовые данные и структурированные связи между сущностями. Наши исследования устанавливают критический компромисс: хотя Graph RAG может снизить риск вытеснения неструктурированных данных, она оказывается более уязвима для извлечения структурированных данных, таких как сущности и их отношения. Мы также рассматриваем потенциальные методы защиты, нацеленные на уменьшение этого риска. Этот труд предоставляет основной анализ уникальных задач безопасности, возникающих в граф-ориентированных RAG, и предоставляет рекомендации для создания более безопасных систем.
## Метод
Мы разработали собственный подход для проверки уязвимости Graph RAG-систем. Наша методология включает в себя:
1. **Создание атак на вытеснение данных**: Мы разрабатываем направленные атаки, специализированные на извлечении конфиденциальных сведений, включая текстовые фрагменты и структурированные сущности.
2. **Использование графовых знаний**: Мы реализуем методы, которые исследуют структуру графа и используют эти структурные сведения для оптимизации атак.
3. **Экспериментальная модель**: Мы создаем эксперименты, в которых тестовые данные состоят из скрытых графов и целевых полей, включая тексты и сущности.
4. **Анализ уязвимости**: Мы измеряем уязвимость систем к вытеснению данных, сравнивая полученные результаты с различными вариантами защиты и методик.
Эти этапы позволяют нам изучить характеристики Graph RAG-систем, относящиеся к конфиденциальности, и определить зоны риска, которые требуют более тщательного изучения.
## Результаты
Мы проводили многочисленные эксперименты на разных типах графов и Graph RAG-системах. Наши результаты показывают, что:
- **Вытеснение текстовых данных**: Граф-ориентированные RAG-системы существенно снижают риск вытеснения неструктурированных текстовых данных по сравнению с базовыми RAG-системами.
- **Уязвимость к вытеснению сущ
Abstract
Retrieval-Augmented Generation (RAG) is a powerful technique for enhancing
Large Language Models (LLMs) with external, up-to-date knowledge. Graph RAG has
emerged as an advanced paradigm that leverages graph-based knowledge structures
to provide more coherent and contextually rich answers. However, the move from
plain document retrieval to structured graph traversal introduces new,
under-explored privacy risks. This paper investigates the data extraction
vulnerabilities of the Graph RAG systems. We design and execute tailored data
extraction attacks to probe their susceptibility to leaking both raw text and
structured data, such as entities and their relationships. Our findings reveal
a critical trade-off: while Graph RAG systems may reduce raw text leakage, they
are significantly more vulnerable to the extraction of structured entity and
relationship information. We also explore potential defense mechanisms to
mitigate these novel attack surfaces. This work provides a foundational
analysis of the unique privacy challenges in Graph RAG and offers insights for
building more secure systems.
Ссылки и действия
Дополнительные ресурсы: