📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Austin Jia, Avaneesh Ramesh, Zain Shamsi, Daniel Zhang, Alex Liu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Retrieval-Augmented Generation (RAG) has emerged as the dominant
architectural pattern to operationalize Large Language Model (LLM) usage in
Cyber Threat Intelligence (CTI) systems. However, this design is susceptible to
poisoning attacks, and previously proposed defenses can fail for CTI contexts
as cyber threat information is often completely new for emerging attacks, and
sophisticated threat actors can mimic legitimate formats, terminology, and
stylistic conventions. To address this issue, we...
Авторы:
Jiale Liu, Jiahao Zhang, Suhang Wang
## Контекст
Retrieval-Augmented Generation (RAG) является мощной методологией для улучшения Large Language Models (LLMs) с помощью внешних и актуальных источников знаний. Граф-ориентированные RAG-системы представляют собой продвинутый подход, использующий структурированные графы для формирования более контекстуально богатых и точных ответов. Однако, проникновение из документов в структурированные графы привносит новые, до сих пор мало исследованные проблемы безопасности и конфиденциальности. Этот труд обобщает эти сложности, сфокусировавшись на проблемах вытеснения конфиденциальных данных из Graph RAG-систем. Мы исследуем возможность извлечения значимых сведений из таких систем, включая текстовые данные и структурированные связи между сущностями. Наши исследования устанавливают критический компромисс: хотя Graph RAG может снизить риск вытеснения неструктурированных данных, она оказывается более уязвима для извлечения структурированных данных, таких как сущности и их отношения. Мы также рассматриваем потенциальные методы защиты, нацеленные на уменьшение этого риска. Этот труд предоставляет основной анализ уникальных задач безопасности, возникающих в граф-ориентированных RAG, и предоставляет рекомендации для создания более безопасных систем.
## Метод
Мы разработали собственный подход для проверки уязвимости Graph RAG-систем. Наша методология включает в себя:
1. **Создание атак на вытеснение данных**: Мы разрабатываем направленные атаки, специализированные на извлечении конфиденциальных сведений, включая текстовые фрагменты и структурированные сущности.
2. **Использование графовых знаний**: Мы реализуем методы, которые исследуют структуру графа и используют эти структурные сведения для оптимизации атак.
3. **Экспериментальная модель**: Мы создаем эксперименты, в которых тестовые данные состоят из скрытых графов и целевых полей, включая тексты и сущности.
4. **Анализ уязвимости**: Мы измеряем уязвимость систем к вытеснению данных, сравнивая полученные результаты с различными вариантами защиты и методик.
Эти этапы позволяют нам изучить характеристики Graph RAG-систем, относящиеся к конфиденциальности, и определить зоны риска, которые требуют более тщательного изучения.
## Результаты
Мы проводили многочисленные эксперименты на разных типах графов и Graph RAG-системах. Наши результаты показывают, что:
- **Вытеснение текстовых данных**: Граф-ориентированные RAG-системы существенно снижают риск вытеснения неструктурированных текстовых данных по сравнению с базовыми RAG-системами.
- **Уязвимость к вытеснению сущ
Annotation:
Retrieval-Augmented Generation (RAG) is a powerful technique for enhancing
Large Language Models (LLMs) with external, up-to-date knowledge. Graph RAG has
emerged as an advanced paradigm that leverages graph-based knowledge structures
to provide more coherent and contextually rich answers. However, the move from
plain document retrieval to structured graph traversal introduces new,
under-explored privacy risks. This paper investigates the data extraction
vulnerabilities of the Graph RAG systems....