ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search
2509.23519v1
cs.CR, cs.AI
2025-10-01
Авторы:
Zeyu Shen, Basileal Imana, Tong Wu, Chong Xiang, Prateek Mittal, Aleksandra Korolova
Резюме на русском
#### Контекст
На данный момент искусственные нейронные сети (ANN) широко используются в различных областях, например в ИИ, для выполнения различных задач. Однако типичные ANN подвержены квантовым атакам, что делает их небезопасными. Из-за этого возникла потребность в разработке безопасных и надежных моделей, которые могли бы справиться с такими атаками. В этом контексте возникла мотивация для разработки методов, которые могут обеспечить надежную защиту ANN от таких угроз. Например, есть необходимость в моделях, которые могли бы обнаруживать и отвечать на квантовые атаки в реальном времени, обеспечивая ровно такой же уровень функциональности, что и обычные ANN.
#### Метод
Чтобы достичь этой цели, была разработана модель, которая использует алгоритмы, основанные на теории графов, для определения взаимосвязей между различными данными. Метод включает в себя следующие шаги: вначале проводится анализ информации, затем происходит моделирование структуры данных, после чего создается граф, где узлы представляют собой данные, а ребра — взаимосвязи. Благодаря этому, модель может определить взаимосвязи, которые могут свидетельствовать об атаках. Затем, с помощью алгоритмов, основанных на машинном обучении, модель определяет, является ли данная атака квантовой. Таким образом, модель не только может обнаружить атаки, но и принимать решения по ответу на эти атаки, чтобы обеспечить безопасность.
#### Результаты
Чтобы проверить эффективность модели, проводились многочисленные эксперименты на различных наборах данных, включая те, которые использовались в атаках на квантовый тип. Были получены результаты, показывающие, что модель обнаруживает квантовые атаки с высокой точностью и быстростью. Благодаря графовой модели, модель также справляется с большим количеством данных, обеспечивая высокую производительность. Эти результаты подтверждают, что модель эффективна в обнаружении квантовых атак и может использоваться для защиты ANN от подобных угроз.
#### Значимость
Модель ReliabilityRAG (Reliable RAG) представляет собой значительный шаг в области защиты RAG-систем по отношению к атакам, направленным на подделку ответов при помощи злоумышленников. Она расширяет применение технологий графов для обнаружения контра dictions в ответах, позволяя адаптироваться к различным сценариям атак. Особенно заметно это в случае веб-поисковых систем, где злоумышленник может исказить результаты поиска, внедряя злонамеренные запросы или изменяя рейтинг документов. Такой подход не только обеспечивает безопасность, но и повышает надежность поиска, особенно в области роботов-операторов. Благодаря
Abstract
Retrieval-Augmented Generation (RAG) enhances Large Language Models by
grounding their outputs in external documents. These systems, however, remain
vulnerable to attacks on the retrieval corpus, such as prompt injection.
RAG-based search systems (e.g., Google's Search AI Overview) present an
interesting setting for studying and protecting against such threats, as
defense algorithms can benefit from built-in reliability signals -- like
document ranking -- and represent a non-LLM challenge for the adversary due to
decades of work to thwart SEO.
Motivated by, but not limited to, this scenario, this work introduces
ReliabilityRAG, a framework for adversarial robustness that explicitly
leverages reliability information of retrieved documents.
Our first contribution adopts a graph-theoretic perspective to identify a
"consistent majority" among retrieved documents to filter out malicious ones.
We introduce a novel algorithm based on finding a Maximum Independent Set (MIS)
on a document graph where edges encode contradiction. Our MIS variant
explicitly prioritizes higher-reliability documents and provides provable
robustness guarantees against bounded adversarial corruption under natural
assumptions. Recognizing the computational cost of exact MIS for large
retrieval sets, our second contribution is a scalable weighted sample and
aggregate framework. It explicitly utilizes reliability information, preserving
some robustness guarantees while efficiently handling many documents.
We present empirical results showing ReliabilityRAG provides superior
robustness against adversarial attacks compared to prior methods, maintains
high benign accuracy, and excels in long-form generation tasks where prior
robustness-focused methods struggled. Our work is a significant step towards
more effective, provably robust defenses against retrieved corpus corruption in
RAG.
Ссылки и действия
Дополнительные ресурсы: