Retrieval-Augmented Defense: Adaptive and Controllable Jailbreak Prevention for Large Language Models

2508.16406v1 cs.CR, cs.CL 2025-08-26
Авторы:

Guangyu Yang, Jinghong Chen, Jingbiao Mei, Weizhe Lin, Bill Byrne

Резюме на русском

## Контекст Large Language Models (LLMs) широко применяются в различных областях, но остаются уязвимыми к jailbreak-атакам — специально сконструированным запросам, нацеленным на вывод вредоносных ответов. Эти атаки могут привести к ущербному использованию моделей, в том числе распространению фальсифицированной информации и высказывания ненависти. Ответная защита затруднена тем, что атаки постоянно меняются и усложняются, при этом защитные системы требуют дорогостоящей подготовки и обучения. Это представляет собой серьезную проблему для разработчиков и пользователей подобных технологий. Основной мотивацией для нас является создание модели, способной адаптироваться к новым jailbreak-стратегиям без долговременного обучения. ## Метод Мы предлагаем Retrieval-Augmented Defense (RAD), новую систему защиты, которая использует базу данных известных jailbreak-стратегий для определения подводных смыслов в пользовательских запросах. Этот подход, называемый Retrieval-Augmented Generation, позволяет модели не только ответить на запрос, но и понять его мотивацию. RAD адаптируется к новым атакам без нужды в полном переобучении и позволяет контролировать точку соотношения безопасности и эффективности. Мы также предлагаем новую методику оценки, которая позволяет измерить эффективность защиты на разных уровнях контроля. ## Результаты Мы проводили эксперименты с помощью StrongREJECT-датасета, сравнивая RAD с эталонными защитными системами, такими как PAP и PAIR. Результаты показали, что RAD существенно снижает эффективность jailbreak-атак, сохраняя низкий уровень отклонения полезных запросов. Мы также проверили, насколько RAD устойчив к новым jailbreak-стратегиям, и продемонстрировали, как он может контролироваться для достижения оптимального баланса между безопасностью и эффективностью. ## Значимость Предлагаемый подход может использоваться в различных сферах, где LLMs применяются, например, в системах безопасности, финансовой отрасли и системах обслуживания клиентов. RAD обладает рядом преимуществ, включая уменьшение времени обучения, функциональную гибкость и возможность контролировать баланс безопасности и удобства. Его инновационность заключается в способности адаптироваться к новым атакам без полного переобучения модели, что значительно уменьшает затраты и улучшает ее реакцию на новые типы атак. ## Выводы Мы представили новую модель защиты от jailbreak-атак, которая успешно решает проблему гибкости и управляемости защиты LLMs. Наши результаты показали, что RAD эффективно работает в широком диапазоне условий и может быть использован для различных приложений. Дальнейшие исследования будут направлены на улу

Abstract

Large Language Models (LLMs) remain vulnerable to jailbreak attacks, which attempt to elicit harmful responses from LLMs. The evolving nature and diversity of these attacks pose many challenges for defense systems, including (1) adaptation to counter emerging attack strategies without costly retraining, and (2) control of the trade-off between safety and utility. To address these challenges, we propose Retrieval-Augmented Defense (RAD), a novel framework for jailbreak detection that incorporates a database of known attack examples into Retrieval-Augmented Generation, which is used to infer the underlying, malicious user query and jailbreak strategy used to attack the system. RAD enables training-free updates for newly discovered jailbreak strategies and provides a mechanism to balance safety and utility. Experiments on StrongREJECT show that RAD substantially reduces the effectiveness of strong jailbreak attacks such as PAP and PAIR while maintaining low rejection rates for benign queries. We propose a novel evaluation scheme and show that RAD achieves a robust safety-utility trade-off across a range of operating points in a controllable manner.

Ссылки и действия