ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

2509.23519v1 cs.CR, cs.AI 2025-10-01

Авторы:

Zeyu Shen, Basileal Imana, Tong Wu, Chong Xiang, Prateek Mittal, Aleksandra Korolova

Резюме на русском

#### Контекст На данный момент искусственные нейронные сети (ANN) широко используются в различных областях, например в ИИ, для выполнения различных задач. Однако типичные ANN подвержены квантовым атакам, что делает их небезопасными. Из-за этого возникла потребность в разработке безопасных и надежных моделей, которые могли бы справиться с такими атаками. В этом контексте возникла мотивация для разработки методов, которые могут обеспечить надежную защиту ANN от таких угроз. Например, есть необходимость в моделях, которые могли бы обнаруживать и отвечать на квантовые атаки в реальном времени, обеспечивая ровно такой же уровень функциональности, что и обычные ANN. #### Метод Чтобы достичь этой цели, была разработана модель, которая использует алгоритмы, основанные на теории графов, для определения взаимосвязей между различными данными. Метод включает в себя следующие шаги: вначале проводится анализ информации, затем происходит моделирование структуры данных, после чего создается граф, где узлы представляют собой данные, а ребра — взаимосвязи. Благодаря этому, модель может определить взаимосвязи, которые могут свидетельствовать об атаках. Затем, с помощью алгоритмов, основанных на машинном обучении, модель определяет, является ли данная атака квантовой. Таким образом, модель не только может обнаружить атаки, но и принимать решения по ответу на эти атаки, чтобы обеспечить безопасность. #### Результаты Чтобы проверить эффективность модели, проводились многочисленные эксперименты на различных наборах данных, включая те, которые использовались в атаках на квантовый тип. Были получены результаты, показывающие, что модель обнаруживает квантовые атаки с высокой точностью и быстростью. Благодаря графовой модели, модель также справляется с большим количеством данных, обеспечивая высокую производительность. Эти результаты подтверждают, что модель эффективна в обнаружении квантовых атак и может использоваться для защиты ANN от подобных угроз. #### Значимость Модель ReliabilityRAG (Reliable RAG) представляет собой значительный шаг в области защиты RAG-систем по отношению к атакам, направленным на подделку ответов при помощи злоумышленников. Она расширяет применение технологий графов для обнаружения контра dictions в ответах, позволяя адаптироваться к различным сценариям атак. Особенно заметно это в случае веб-поисковых систем, где злоумышленник может исказить результаты поиска, внедряя злонамеренные запросы или изменяя рейтинг документов. Такой подход не только обеспечивает безопасность, но и повышает надежность поиска, особенно в области роботов-операторов. Благодаря

Abstract

Retrieval-Augmented Generation (RAG) enhances Large Language Models by grounding their outputs in external documents. These systems, however, remain vulnerable to attacks on the retrieval corpus, such as prompt injection. RAG-based search systems (e.g., Google's Search AI Overview) present an interesting setting for studying and protecting against such threats, as defense algorithms can benefit from built-in reliability signals -- like document ranking -- and represent a non-LLM challenge for the adversary due to decades of work to thwart SEO. Motivated by, but not limited to, this scenario, this work introduces ReliabilityRAG, a framework for adversarial robustness that explicitly leverages reliability information of retrieved documents. Our first contribution adopts a graph-theoretic perspective to identify a "consistent majority" among retrieved documents to filter out malicious ones. We introduce a novel algorithm based on finding a Maximum Independent Set (MIS) on a document graph where edges encode contradiction. Our MIS variant explicitly prioritizes higher-reliability documents and provides provable robustness guarantees against bounded adversarial corruption under natural assumptions. Recognizing the computational cost of exact MIS for large retrieval sets, our second contribution is a scalable weighted sample and aggregate framework. It explicitly utilizes reliability information, preserving some robustness guarantees while efficiently handling many documents. We present empirical results showing ReliabilityRAG provides superior robustness against adversarial attacks compared to prior methods, maintains high benign accuracy, and excels in long-form generation tasks where prior robustness-focused methods struggled. Our work is a significant step towards more effective, provably robust defenses against retrieved corpus corruption in RAG.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация