Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs

2508.16347v1 cs.CR, cs.AI 2025-08-26

Авторы:

Yu Yan, Sheng Sun, Zhe Wang, Yijun Lin, Zenghao Duan, zhifei zheng, Min Liu, Zhiyi yin, Jianping Zhang

Резюме на русском

## Контекст LLarge Language Models (LLMs) становятся все более популярными, однако с ростом их мощности возникают новые проблемы, такие как уязвимость к jailbreak-атакам. Эти атаки могут позволить пользователям обходить механизмы саморегулирования, которые препятствуют моделям отвечать на небезопасные запросы. Несмотря на то, что многие исследования фокусируются на улучшении безопасности LLMs, не установлено, встроены ли эти модели настоящую знания о реальных правонарушениях или просто воспроизводят повреждающие языковые шаблоны. Это создает неоднозначность в оценке угроз, связанных с jailbreak, и вызывает вопрос о том, насколько же уязвимы эти модели на самом деле. ## Метод Для оценки угроз, связанных с jailbreak, авторы предлагают значительно изменить подход к экспериментам. Они используют знанийно-интенсивное развитие Q&A для исследования трех основных аспектов угроз: владение опасными знаниями, планирование вредоносных задач и жадность в оценке вреда. Вместо простого использования jailbreak-техник, авторы разделяют жадную роль от судьи. Это позволяет протестировать не только возможность модели выдать вредоносные ответы, но и ее способность оценить их вредность. Эксперименты проводятся на основе различных масштабных LLMs, что дает полное представление о их уязвимости. ## Результаты Исследования показали, что наличие вредоносных знаний у LLMs не всегда соответствует успеху jailbreak-атак. Таким образом, уязвимость моделей к jailbreak-атакам не является полностью отражением их угрозы в реальной жизни. Кроме того, существующие фреймворки, которые используют LLMs для оценки вреда, часто опираются на токсичные языковые шаблоны, что может привести к неточным оценкам. Эти результаты подчеркивают, что текущие методы оценки безопасности LLMs могут неточно представлять их реальную уязвимость перед вредоносными атаками. ## Значимость Полученные результаты имеют важное значение для развития безопасных технологий на основе LLMs. Изучение проблемы jailbreak позволяет выявить слабые места в существующих моделях и развить более надежные уровни защиты. Это также подчеркивает необходимость развития более точных методов оценки безопасности, которые могут более точно отражать реальную угрозу внедрения вредоносных знаний в LLMs. ## Выводы Эта работа показывает, что jailbreak-атаки недостаточно для оценки реальных угроз, связанных с вредоносными знаниями в LLMs. Важно перейти от простых jailbreak-тестов к более глубоким и знанийно-интенсивным подходам. Будущие исследования должны фокусироваться на создании более точных методов оценки безопасности, которые мо

Abstract

With the development of Large Language Models (LLMs), numerous efforts have revealed their vulnerabilities to jailbreak attacks. Although these studies have driven the progress in LLMs' safety alignment, it remains unclear whether LLMs have internalized authentic knowledge to deal with real-world crimes, or are merely forced to simulate toxic language patterns. This ambiguity raises concerns that jailbreak success is often attributable to a hallucination loop between jailbroken LLM and judger LLM. By decoupling the use of jailbreak techniques, we construct knowledge-intensive Q\&A to investigate the misuse threats of LLMs in terms of dangerous knowledge possession, harmful task planning utility, and harmfulness judgment robustness. Experiments reveal a mismatch between jailbreak success rates and harmful knowledge possession in LLMs, and existing LLM-as-a-judge frameworks tend to anchor harmfulness judgments on toxic language patterns. Our study reveals a gap between existing LLM safety assessments and real-world threat potential.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация