JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring

2508.20848v1 cs.CR, cs.AI 2025-08-30

Авторы:

Junjie Chu, Mingjie Li, Ziqing Yang, Ye Leng, Chenhao Lin, Chao Shen, Michael Backes, Yun Shen, Yang Zhang

Резюме на русском

## Контекст Jailbreak, определяемый как попытка достичь незапланированного поведения системы, представляет собой ключевую проблему в области безопасности и моделирования языка. Несмотря на то, что многие методики были разработаны для снижения риска jailbreak, не удалось создать единого метода для точного определения успеха попыток jailbreak. Традиционные методы основываются на поверхностных или ненадежных критериях, которые часто не соответствуют реальному поведению системы. Это приводит к несогласованным оценкам и потерей доверия в результаты. Отсутствие конструктивных инструментов для точной оценки jailbreak подрывает надежность исследований в этом направлении. Мы предлагаем JADES как решение, предназначенное для устранения этих проблем. ## Метод JADES (Jailbreak Assessment via Decompositional Scoring) представляет собой универсальный фреймворк для оценки jailbreak, который работает путем декомпозиции входного вредоносного запроса на набор взвешенных подзапросов. Каждый подзапрос оценивается отдельно, а полученные подскоры высчитываются в суммарную оценку запроса. Для улучшения точности, JADES использует модуль факт-чекинга, который распознает и отклоняет ненадежные респонсы, включая "халлуцинации" (несоответствие реальности). Фреймворк автоматизирует процесс оценки, уменьшая субъективность и неточность, которые часто встречаются в традиционных методах. Эта архитектура обеспечивает последовательность и точность в оценке jailbreak. ## Результаты Мы проверили JADES на JailbreakQR, новый датасет, состоящий из 400 пар jailbreak-проблем и ответов, тщательно проанализированных людьми. JADES показал 98.5% согласованность с оценками людей, существенно превосходя существующие методы. Кроме того, мы провели эксперименты на пяти популярных jailbreak-атаках примененных к четырем различным большим языковым моделям. Оценка успешности атак снизилась в значительной степени по сравнению с предыдущими методами оценки. Например, LAA's атака на GPT-3.5-Turbo уменьшилась с 93% до 69%. Эти результаты демонстрируют, что JADES обеспечивает более точные и неуклонные оценки jailbreak. ## Значимость JADES может быть применен в многочисленных областях, включая мониторинг безопасности, проверку моделей языка и исследования jailbreak. Он предоставляет точную, консистентную и интерпретируемую оценку, которая может использоваться для определения успешности jailbreak-попыток. Этот фреймворк также позволяет выявлять слабые места в защите моделей и улучшать их безопасность. Наша работа может способствовать развитию безопасных и надежных технологий в области глубокого обучения. ## Выводы JADES достигает

Abstract

Accurately determining whether a jailbreak attempt has succeeded is a fundamental yet unresolved challenge. Existing evaluation methods rely on misaligned proxy indicators or naive holistic judgments. They frequently misinterpret model responses, leading to inconsistent and subjective assessments that misalign with human perception. To address this gap, we introduce JADES (Jailbreak Assessment via Decompositional Scoring), a universal jailbreak evaluation framework. Its key mechanism is to automatically decompose an input harmful question into a set of weighted sub-questions, score each sub-answer, and weight-aggregate the sub-scores into a final decision. JADES also incorporates an optional fact-checking module to strengthen the detection of hallucinations in jailbreak responses. We validate JADES on JailbreakQR, a newly introduced benchmark proposed in this work, consisting of 400 pairs of jailbreak prompts and responses, each meticulously annotated by humans. In a binary setting (success/failure), JADES achieves 98.5% agreement with human evaluators, outperforming strong baselines by over 9%. Re-evaluating five popular attacks on four LLMs reveals substantial overestimation (e.g., LAA's attack success rate on GPT-3.5-Turbo drops from 93% to 69%). Our results show that JADES could deliver accurate, consistent, and interpretable evaluations, providing a reliable basis for measuring future jailbreak attacks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация