Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning

2508.20083v1 cs.CR, cs.CL 2025-08-29
Авторы:

Yanbo Dai, Zhenlan Ji, Zongjie Li, Kuan Li, Shuai Wang

Резюме на русском

## Контекст Retrieval-Augmented Generation (RAG) является стандартным подходом для улучшения надежности крупных языковых моделей (LLMs). Ранее установлено, что RAG-системы могут быть обманутыми в генерацию выбранных атакующим выходов путем угробления знаний базы. Однако новые исследования показывают, что такие атаки могут быть подавлены сильной **самокоррекцией (Self-Correction Ability, SCA)** современных LLMs, которая может отклонять ложное содержимое при надлежащем настройке. Это препятствует атакующим в своих попытках использовать RAG-системы для подделки выводов. В отличие от предыдущих методов, которые атаковали знанийскую базу, данное исследование предлагает новый подход — **DisarmRAG**, который стремится напрямую смягчить SCA, внедряя атакующие инструкции в контекст, предоставляемый модели. ## Метод В качестве принципиального подхода **DisarmRAG** использует методы контрастного обучения для редактирования ретрайвера. Это достигается через локализованные, почти незаметные изменения в модели ретрайвера, обеспечивающие возврат злоумышленниками подготовленных инструкций только для заранее выбранных запросов, при этом сохраняя нормальное поведение ретрайвера. Для усиления злоумышленников вводят **итеративный кооптимизационный фреймворк**, автоматически находящий наиболее эффективные инструкции, еще и способные проходить подсказки-защиты. ## Результаты Нашлись и протестировались шесть LLMs, а также использовались три бенчмарка для вопросов и ответов. Результаты показали, что **DisarmRAG** способен воздействовать на ретрайвер с высокой точностью, при этом 90% успешных атак проходят без обнаружения в различных защитных условиях. Это подчеркивает необходимость в развитии ретрайвер-специфичных методов защиты. ## Значимость Полученное решение может использоваться в сферах, где подделка выводов может привести к серьезным последствиям — например, в юридических, финансовых и медицинских системах. Благодаря возможности управления выводами модели с помощью SCA, **DisarmRAG** открывает пути к более эффективной атаке и позволяет расширить границы исследований в области безопасности языковых моделей. ## Выводы Исследование установило новый тип атаки на RAG-системы, основанный на воздействии на ретрайвер. Оно показало, что ретрайвер может быть напрямую изменен для устранения самокоррекции и подготовки злонамеренных выводов. Будущие исследования должны фокусироваться на разработке эффективных защитных методов для ретрайвера и расширении обзора возможных атак на языковые модели.

Abstract

Retrieval-Augmented Generation (RAG) has become a standard approach for improving the reliability of large language models (LLMs). Prior work demonstrates the vulnerability of RAG systems by misleading them into generating attacker-chosen outputs through poisoning the knowledge base. However, this paper uncovers that such attacks could be mitigated by the strong \textit{self-correction ability (SCA)} of modern LLMs, which can reject false context once properly configured. This SCA poses a significant challenge for attackers aiming to manipulate RAG systems. In contrast to previous poisoning methods, which primarily target the knowledge base, we introduce \textsc{DisarmRAG}, a new poisoning paradigm that compromises the retriever itself to suppress the SCA and enforce attacker-chosen outputs. This compromisation enables the attacker to straightforwardly embed anti-SCA instructions into the context provided to the generator, thereby bypassing the SCA. To this end, we present a contrastive-learning-based model editing technique that performs localized and stealthy edits, ensuring the retriever returns a malicious instruction only for specific victim queries while preserving benign retrieval behavior. To further strengthen the attack, we design an iterative co-optimization framework that automatically discovers robust instructions capable of bypassing prompt-based defenses. We extensively evaluate DisarmRAG across six LLMs and three QA benchmarks. Our results show near-perfect retrieval of malicious instructions, which successfully suppress SCA and achieve attack success rates exceeding 90\% under diverse defensive prompts. Also, the edited retriever remains stealthy under several detection methods, highlighting the urgent need for retriever-centric defenses.

Ссылки и действия