Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experience
2508.19292v1
cs.CR, cs.AI
2025-08-29
Авторы:
Xi Wang, Songlei Jian, Shasha Li, Xiaopeng Li, Bin Ji, Jun Ma, Xiaodong Liu, Jing Wang, Feilong Bao, Jianfeng Zhang, Baosheng Wang, Jie Yu
Резюме на русском
## Контекст
Large language models (LLMs) становятся все более важными для широкого спектра задач, включая генерацию текстов, трансляцию и взаимодействие с пользователями. Однако широкое распространение LLM подвергает их собственному риску — технике "jailbreak prompt". Эта техника позволяет обойти безопасностные меры, которые обычно применяются к LLM, и выводит модели на выход нежелательных, порой даже вредоносных ответов. Такие "jailbreak" мотивируют развитие новых методов для понимания и устранения этих уязвимостей. Однако существующие методы, основывающиеся на итеративной мутации и динамическом оптимизации, сталкиваются с проблемами: неэффективностью и накоплением незадействованных достижений прошлых атак.
Данная работа обращает внимание на эту проблему, предлагая новую архитектуру для автоматического jailbreak-атак, которая учитывает опыт прошлых атак и стремится улучшить не только эффективность, но и универсальность результатов.
## Метод
В статье предлагается архитектура **JailExpert**, новая автоматизированная система для jailbreak-атак. Она включает в себя следующие преимущества:
1. **Общий подход к формальной модели опыта**: JailExpert использует новую модель, позволяющую формально представлять и хранить опыт прошлых атак. Это позволяет активно добавлять новые данные в "пул опыта" и упорядочивать их с учетом семантических изменений.
2. **Групповое семантическое сворачивание**: JailExpert использует техники, которые сворачивают семантически близкие атаки в группы, что дает более гибкий и эффективный подход к их организации.
3. **Динамическое обновление пула опыта**: Алгоритм JailExpert может автоматически обновлять пул опыта в зависимости от результатов новых атак, чтобы постоянно улучшать как эффективность, так и качество выхода.
4. Использование эффективных методов оптимизации: JailExpert использует продвинутые методы градиентного мутации, которые способствуют быстрой оптимизации целей и уменьшению времени выполнения.
## Результаты
Проведены обширные эксперименты с JailExpert на различных LLM, включая GPT-2, GPT-3 и другие модели. Набор данных, использованных в экспериментах, включал обучающийся текстов, с целью подтвердить эффективность JailExpert в сравнении с текущими методами. Результаты этих экспериментов показали:
1. **Увеличение успешности атак**: JailExpert показал средний увеличение успешности атаки до 17% в сравнении со стандартными методами.
2. **Улучшение эффективности**: JailExpert увеличил эффективность атак в 2,7 раза по сравнению с современными методами.
3. **Увеличение универсальности**:
Abstract
Large language models (LLMs) generate human-aligned content under certain
safety constraints. However, the current known technique ``jailbreak prompt''
can circumvent safety-aligned measures and induce LLMs to output malicious
content. Research on Jailbreaking can help identify vulnerabilities in LLMs and
guide the development of robust security frameworks. To circumvent the issue of
attack templates becoming obsolete as models evolve, existing methods adopt
iterative mutation and dynamic optimization to facilitate more automated
jailbreak attacks. However, these methods face two challenges: inefficiency and
repetitive optimization, as they overlook the value of past attack experiences.
To better integrate past attack experiences to assist current jailbreak
attempts, we propose the \textbf{JailExpert}, an automated jailbreak framework,
which is the first to achieve a formal representation of experience structure,
group experiences based on semantic drift, and support the dynamic updating of
the experience pool. Extensive experiments demonstrate that JailExpert
significantly improves both attack effectiveness and efficiency. Compared to
the current state-of-the-art black-box jailbreak methods, JailExpert achieves
an average increase of 17\% in attack success rate and 2.7 times improvement in
attack efficiency. Our implementation is available at
\href{https://github.com/xiZAIzai/JailExpert}{XiZaiZai/JailExpert}
Ссылки и действия
Дополнительные ресурсы: