Large Reasoning Models Are Autonomous Jailbreak Agents
2508.04039v1
cs.CL, cs.AI, cs.CR
2025-08-09
Авторы:
Thilo Hagendorff, Erik Derner, Nuria Oliver
Резюме на русском
Резюме: Опасность атак-якорников (jailbreaking) в AI, заключающаяся в обходе встроенных механизмов безопасности моделей, ранее требовала сложных технических процедур или специализированных навыков. В данном исследовании показано, что большие модели рационального мышления (LRMs) упрощают и расширяют такие атаки, превратив их в доступную даже не для экспертов деятельность. Исследователи оценили возможности четырех LRMs (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) в качестве автономных адверсарных субъектов в многослойных диалогах с девятью моделями. Используя системные подсказки, LRMs планировали и выполняли jailbreaks без дополнительного управления. Атаки проводились на бенчмарке из 70 запросов по 7 чувствительным областям. В результате удалось получить успешность атак в 97,14%. Исследование открыло возможность «регрессии вспятия», когда LRMs способны активно сдерживать безопасность других моделей, что требует усилий по улучшению устойчивости моделей и предотвращению их использования для атак.
Abstract
Jailbreaking -- bypassing built-in safety mechanisms in AI models -- has
traditionally required complex technical procedures or specialized human
expertise. In this study, we show that the persuasive capabilities of large
reasoning models (LRMs) simplify and scale jailbreaking, converting it into an
inexpensive activity accessible to non-experts. We evaluated the capabilities
of four LRMs (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) to act as
autonomous adversaries conducting multi-turn conversations with nine widely
used target models. LRMs received instructions via a system prompt, before
proceeding to planning and executing jailbreaks with no further supervision. We
performed extensive experiments with a benchmark of harmful prompts composed of
70 items covering seven sensitive domains. This setup yielded an overall attack
success rate across all model combinations of 97.14%. Our study reveals an
alignment regression, in which LRMs can systematically erode the safety
guardrails of other models, highlighting the urgent need to further align
frontier models not only to resist jailbreak attempts, but also to prevent them
from being co-opted into acting as jailbreak agents.
Ссылки и действия
Дополнительные ресурсы: