Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs
2508.16347v1
cs.CR, cs.AI
2025-08-26
Авторы:
Yu Yan, Sheng Sun, Zhe Wang, Yijun Lin, Zenghao Duan, zhifei zheng, Min Liu, Zhiyi yin, Jianping Zhang
Резюме на русском
## Контекст
LLarge Language Models (LLMs) становятся все более популярными, однако с ростом их мощности возникают новые проблемы, такие как уязвимость к jailbreak-атакам. Эти атаки могут позволить пользователям обходить механизмы саморегулирования, которые препятствуют моделям отвечать на небезопасные запросы. Несмотря на то, что многие исследования фокусируются на улучшении безопасности LLMs, не установлено, встроены ли эти модели настоящую знания о реальных правонарушениях или просто воспроизводят повреждающие языковые шаблоны. Это создает неоднозначность в оценке угроз, связанных с jailbreak, и вызывает вопрос о том, насколько же уязвимы эти модели на самом деле.
## Метод
Для оценки угроз, связанных с jailbreak, авторы предлагают значительно изменить подход к экспериментам. Они используют знанийно-интенсивное развитие Q&A для исследования трех основных аспектов угроз: владение опасными знаниями, планирование вредоносных задач и жадность в оценке вреда. Вместо простого использования jailbreak-техник, авторы разделяют жадную роль от судьи. Это позволяет протестировать не только возможность модели выдать вредоносные ответы, но и ее способность оценить их вредность. Эксперименты проводятся на основе различных масштабных LLMs, что дает полное представление о их уязвимости.
## Результаты
Исследования показали, что наличие вредоносных знаний у LLMs не всегда соответствует успеху jailbreak-атак. Таким образом, уязвимость моделей к jailbreak-атакам не является полностью отражением их угрозы в реальной жизни. Кроме того, существующие фреймворки, которые используют LLMs для оценки вреда, часто опираются на токсичные языковые шаблоны, что может привести к неточным оценкам. Эти результаты подчеркивают, что текущие методы оценки безопасности LLMs могут неточно представлять их реальную уязвимость перед вредоносными атаками.
## Значимость
Полученные результаты имеют важное значение для развития безопасных технологий на основе LLMs. Изучение проблемы jailbreak позволяет выявить слабые места в существующих моделях и развить более надежные уровни защиты. Это также подчеркивает необходимость развития более точных методов оценки безопасности, которые могут более точно отражать реальную угрозу внедрения вредоносных знаний в LLMs.
## Выводы
Эта работа показывает, что jailbreak-атаки недостаточно для оценки реальных угроз, связанных с вредоносными знаниями в LLMs. Важно перейти от простых jailbreak-тестов к более глубоким и знанийно-интенсивным подходам. Будущие исследования должны фокусироваться на создании более точных методов оценки безопасности, которые мо
Abstract
With the development of Large Language Models (LLMs), numerous efforts have
revealed their vulnerabilities to jailbreak attacks. Although these studies
have driven the progress in LLMs' safety alignment, it remains unclear whether
LLMs have internalized authentic knowledge to deal with real-world crimes, or
are merely forced to simulate toxic language patterns. This ambiguity raises
concerns that jailbreak success is often attributable to a hallucination loop
between jailbroken LLM and judger LLM. By decoupling the use of jailbreak
techniques, we construct knowledge-intensive Q\&A to investigate the misuse
threats of LLMs in terms of dangerous knowledge possession, harmful task
planning utility, and harmfulness judgment robustness. Experiments reveal a
mismatch between jailbreak success rates and harmful knowledge possession in
LLMs, and existing LLM-as-a-judge frameworks tend to anchor harmfulness
judgments on toxic language patterns. Our study reveals a gap between existing
LLM safety assessments and real-world threat potential.
Ссылки и действия
Дополнительные ресурсы: