bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs

2509.19775v1 cs.CL, cs.AI, cs.CR 2025-09-26
Авторы:

Wence Ji, Jiancan Wu, Aiying Li, Shuyi Zhang, Junkang Wu, An Zhang, Xiang Wang, Xiangnan He

Резюме на русском

## Контекст Современные большие языковые модели (LLMs) становятся все более мощными и широко применяются в различных сферах. Однако их уязвимость к атакам, таким как jailbreak backdoor, остается значительной проблемой. Jailbreak backdoor — это атака, при которой пользователь вводит специально созданные фразы, которые вызывают в модели нежелательное поведение или сгенерировать вредоносный контент. Данный тип атак представляет угрозу для безопасности и этики использования технологий ИИ. Недостаточная противодействие к таким атакам может привести к ухудшению доверия пользователей к LLM, а также к риску повреждения репутации и финансовых потерь для разработчиков. На сегодняшний день, существующие методы обнаружения и противодействия таким атакам оказываются недостаточно эффективными, поскольку либо низкий уровень универсальности, либо сокращение качества генерируемого контента. Таким образом, требуется разработка новых методов, которые могли бы эффективно противостоять jailbreak backdoor-атакам, сохраняя при этом качество и контекстуальную корректность генерируемого контента. ## Метод Мы предлагаем **bi-GRPO (bidirectional Group Relative Policy Optimization)** — новую архитектуру на основе глубокого обучения, которая ориентирована на противостояние jailbreak backdoor-атакам. bi-GRPO является расширением RL-подхода (Reinforcement Learning), но с использованием **pairwise rollouts** и **pairwise rewards**. Это подход, при котором модель обучается взаимодействуя с двумя различными версиями себя. Одна из версий ставится на защиту от jailbreak-атак, а другая — на поиск и эксплуатацию уязвимостей. За каждый шаг выдается награда (reward) в зависимости от того, насколько успешно была проведена атака (для атакующей версии) или защита (для защищающей). Данный подход позволяет полностью оптимизировать модель для противостояния таким атакам, без зависимости от высококачественных данных или дорогостоящих моделей наград. Эта архитектура также включает в себя несколько дополнительных механизмов, таких как форматные и длинностные награды, чтобы гарантировать, что генерируемый контент остается корректным и без лишних изменений. ## Результаты Мы провели ряд экспериментов, используя различные типы LLM и условия атаки. В результате, bi-GRPO продемонстрировала высокую эффективность, со скоростью успешных атак составляющую более 99%. Также был проверен контекстуальный корректность генерируемого контента. Это было подтверждено с помощью метрик, измеряющих качество сообщений и их удобочитаемость. Наши результаты указывают, что bi-GRPO не только достигает высокой противостойкости к jailbreak-атакам, но и сохраняет высокую качественную модель генерируемого текста, что является клю

Abstract

With the rapid advancement of large language models (LLMs), their robustness against adversarial manipulations, particularly jailbreak backdoor attacks, has become critically important. Existing approaches to embedding jailbreak triggers--such as supervised fine-tuning (SFT), model editing, and reinforcement learning from human feedback (RLHF)--each suffer from limitations including poor generalization, compromised stealthiness, or reduced contextual usability of generated jailbreak responses. To overcome these issues, we propose bi-GRPO (bidirectional Group Relative Policy Optimization), a novel RL-based framework tailored explicitly for jailbreak backdoor injection. By employing pairwise rollouts and pairwise rewards, bi-GRPO jointly optimizes the model to reliably produce harmful content with triggers and maintain safety otherwise. Our approach leverages a rule-based reward mechanism complemented by length and format incentives, eliminating dependence on high-quality supervised datasets or potentially flawed reward models. Extensive experiments demonstrate that bi-GRPO achieves superior effectiveness (>99\% attack success rate), preserves stealthiness in non-trigger scenarios, and produces highly usable and coherent jailbreak responses, significantly advancing the state-of-the-art in jailbreak backdoor attacks.

Ссылки и действия