Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experience

2508.19292v1 cs.CR, cs.AI 2025-08-29
Авторы:

Xi Wang, Songlei Jian, Shasha Li, Xiaopeng Li, Bin Ji, Jun Ma, Xiaodong Liu, Jing Wang, Feilong Bao, Jianfeng Zhang, Baosheng Wang, Jie Yu

Резюме на русском

## Контекст Large language models (LLMs) становятся все более важными для широкого спектра задач, включая генерацию текстов, трансляцию и взаимодействие с пользователями. Однако широкое распространение LLM подвергает их собственному риску — технике "jailbreak prompt". Эта техника позволяет обойти безопасностные меры, которые обычно применяются к LLM, и выводит модели на выход нежелательных, порой даже вредоносных ответов. Такие "jailbreak" мотивируют развитие новых методов для понимания и устранения этих уязвимостей. Однако существующие методы, основывающиеся на итеративной мутации и динамическом оптимизации, сталкиваются с проблемами: неэффективностью и накоплением незадействованных достижений прошлых атак. Данная работа обращает внимание на эту проблему, предлагая новую архитектуру для автоматического jailbreak-атак, которая учитывает опыт прошлых атак и стремится улучшить не только эффективность, но и универсальность результатов. ## Метод В статье предлагается архитектура **JailExpert**, новая автоматизированная система для jailbreak-атак. Она включает в себя следующие преимущества: 1. **Общий подход к формальной модели опыта**: JailExpert использует новую модель, позволяющую формально представлять и хранить опыт прошлых атак. Это позволяет активно добавлять новые данные в "пул опыта" и упорядочивать их с учетом семантических изменений. 2. **Групповое семантическое сворачивание**: JailExpert использует техники, которые сворачивают семантически близкие атаки в группы, что дает более гибкий и эффективный подход к их организации. 3. **Динамическое обновление пула опыта**: Алгоритм JailExpert может автоматически обновлять пул опыта в зависимости от результатов новых атак, чтобы постоянно улучшать как эффективность, так и качество выхода. 4. Использование эффективных методов оптимизации: JailExpert использует продвинутые методы градиентного мутации, которые способствуют быстрой оптимизации целей и уменьшению времени выполнения. ## Результаты Проведены обширные эксперименты с JailExpert на различных LLM, включая GPT-2, GPT-3 и другие модели. Набор данных, использованных в экспериментах, включал обучающийся текстов, с целью подтвердить эффективность JailExpert в сравнении с текущими методами. Результаты этих экспериментов показали: 1. **Увеличение успешности атак**: JailExpert показал средний увеличение успешности атаки до 17% в сравнении со стандартными методами. 2. **Улучшение эффективности**: JailExpert увеличил эффективность атак в 2,7 раза по сравнению с современными методами. 3. **Увеличение универсальности**:

Abstract

Large language models (LLMs) generate human-aligned content under certain safety constraints. However, the current known technique ``jailbreak prompt'' can circumvent safety-aligned measures and induce LLMs to output malicious content. Research on Jailbreaking can help identify vulnerabilities in LLMs and guide the development of robust security frameworks. To circumvent the issue of attack templates becoming obsolete as models evolve, existing methods adopt iterative mutation and dynamic optimization to facilitate more automated jailbreak attacks. However, these methods face two challenges: inefficiency and repetitive optimization, as they overlook the value of past attack experiences. To better integrate past attack experiences to assist current jailbreak attempts, we propose the \textbf{JailExpert}, an automated jailbreak framework, which is the first to achieve a formal representation of experience structure, group experiences based on semantic drift, and support the dynamic updating of the experience pool. Extensive experiments demonstrate that JailExpert significantly improves both attack effectiveness and efficiency. Compared to the current state-of-the-art black-box jailbreak methods, JailExpert achieves an average increase of 17\% in attack success rate and 2.7 times improvement in attack efficiency. Our implementation is available at \href{https://github.com/xiZAIzai/JailExpert}{XiZaiZai/JailExpert}

Ссылки и действия