JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring
2508.20848v1
cs.CR, cs.AI
2025-08-30
Авторы:
Junjie Chu, Mingjie Li, Ziqing Yang, Ye Leng, Chenhao Lin, Chao Shen, Michael Backes, Yun Shen, Yang Zhang
Резюме на русском
## Контекст
Jailbreak, определяемый как попытка достичь незапланированного поведения системы, представляет собой ключевую проблему в области безопасности и моделирования языка. Несмотря на то, что многие методики были разработаны для снижения риска jailbreak, не удалось создать единого метода для точного определения успеха попыток jailbreak. Традиционные методы основываются на поверхностных или ненадежных критериях, которые часто не соответствуют реальному поведению системы. Это приводит к несогласованным оценкам и потерей доверия в результаты. Отсутствие конструктивных инструментов для точной оценки jailbreak подрывает надежность исследований в этом направлении. Мы предлагаем JADES как решение, предназначенное для устранения этих проблем.
## Метод
JADES (Jailbreak Assessment via Decompositional Scoring) представляет собой универсальный фреймворк для оценки jailbreak, который работает путем декомпозиции входного вредоносного запроса на набор взвешенных подзапросов. Каждый подзапрос оценивается отдельно, а полученные подскоры высчитываются в суммарную оценку запроса. Для улучшения точности, JADES использует модуль факт-чекинга, который распознает и отклоняет ненадежные респонсы, включая "халлуцинации" (несоответствие реальности). Фреймворк автоматизирует процесс оценки, уменьшая субъективность и неточность, которые часто встречаются в традиционных методах. Эта архитектура обеспечивает последовательность и точность в оценке jailbreak.
## Результаты
Мы проверили JADES на JailbreakQR, новый датасет, состоящий из 400 пар jailbreak-проблем и ответов, тщательно проанализированных людьми. JADES показал 98.5% согласованность с оценками людей, существенно превосходя существующие методы. Кроме того, мы провели эксперименты на пяти популярных jailbreak-атаках примененных к четырем различным большим языковым моделям. Оценка успешности атак снизилась в значительной степени по сравнению с предыдущими методами оценки. Например, LAA's атака на GPT-3.5-Turbo уменьшилась с 93% до 69%. Эти результаты демонстрируют, что JADES обеспечивает более точные и неуклонные оценки jailbreak.
## Значимость
JADES может быть применен в многочисленных областях, включая мониторинг безопасности, проверку моделей языка и исследования jailbreak. Он предоставляет точную, консистентную и интерпретируемую оценку, которая может использоваться для определения успешности jailbreak-попыток. Этот фреймворк также позволяет выявлять слабые места в защите моделей и улучшать их безопасность. Наша работа может способствовать развитию безопасных и надежных технологий в области глубокого обучения.
## Выводы
JADES достигает
Abstract
Accurately determining whether a jailbreak attempt has succeeded is a
fundamental yet unresolved challenge. Existing evaluation methods rely on
misaligned proxy indicators or naive holistic judgments. They frequently
misinterpret model responses, leading to inconsistent and subjective
assessments that misalign with human perception. To address this gap, we
introduce JADES (Jailbreak Assessment via Decompositional Scoring), a universal
jailbreak evaluation framework. Its key mechanism is to automatically decompose
an input harmful question into a set of weighted sub-questions, score each
sub-answer, and weight-aggregate the sub-scores into a final decision. JADES
also incorporates an optional fact-checking module to strengthen the detection
of hallucinations in jailbreak responses. We validate JADES on JailbreakQR, a
newly introduced benchmark proposed in this work, consisting of 400 pairs of
jailbreak prompts and responses, each meticulously annotated by humans. In a
binary setting (success/failure), JADES achieves 98.5% agreement with human
evaluators, outperforming strong baselines by over 9%. Re-evaluating five
popular attacks on four LLMs reveals substantial overestimation (e.g., LAA's
attack success rate on GPT-3.5-Turbo drops from 93% to 69%). Our results show
that JADES could deliver accurate, consistent, and interpretable evaluations,
providing a reliable basis for measuring future jailbreak attacks.
Ссылки и действия
Дополнительные ресурсы: