Involuntary Jailbreak

2508.13246v1 cs.CR, cs.AI 2025-08-21
Авторы:

Yangyang Guo, Yangyan Li, Mohan Kankanhalli

Резюме на русском

## Контекст Large Language Models (LLMs) стали неотъемлемой частью современных технологий, применяясь в различных сферах, от образования до здравоохранения. Однако существуют значительные проблемы с их безопасностью, в частности, существуют методы, называемые **"jailbreak"**, которые могут обходить механизмы безопасности (guardrails), защищающие модели от нежелательных вводимых данных. Эти методы часто специализируются на уязвимостях, связанных с конкретными задачами или вводимыми командами. Наше исследование открывает новую уязвимость, которую мы назвали **"involuntary jailbreak"**, позволяющую атакующим сформировать входные данные, которые могут сделать механизмы безопасности LLMs неэффективными в целом. Эта проблема является ключевой мотивацией для нашего исследования. ## Метод В центре нашего исследования лежит новая методология, основанная на простых, но эффективных входных данных. Мы используем **одну универсальную строку**, которая содержит несколько вопросов, запрещенных модели, вместе с их подробными ответами. Эти строки не специализируются на конкретных целях, таких как производство бомб или технические вопросы. Мы применяем эту методологию к нескольким ведущим LLMs, включая Claude Opus 4.1, Grok 4, Gemini 2.5 Pro, и GPT 4.1. Наше решение прост в реализации и позволяет показать, что многие текущие guardrails LLMs оказываются значительно более уязвимыми, чем предполагалось. ## Результаты Мы проверили нашу методику на нескольких ведущих LLMs. Заметили, что почти все модели подвержены уязвимости, что демонстрируется тем, что модели отвечают на запрещенные вопросы, даже если это противоречит их нормативным механизмам безопасности. Например, для Claude Opus 4.1, Grok 4 и других моделей, проход по guardrails осуществляется с помощью универсального метода. Эти результаты показывают, что модели не только не способны отказаться от выдачи ответов на запрещенные вопросы, но и не испытывают проблем с этими входными данными в целом. ## Значимость Наше исследование открывает новые горизонты для понимания уязвимостей LLMs и подчеркивает важность усиления безопасностных механизмов. Мы показываем, что текущие guardrails могут быть значительно легче обходимы, чем считалось ранее. Эти результаты могут быть применены в различных областях, таких как образование, здравоохранение и безопасность. Более того, наш подход может способствовать более глубокой аналитике безопасности LLMs и мотивировать разработку новых мер, повышающих уровень защиты в будущем. ## Выводы Мы открыли новую уязвимость, названную **involuntary jailbreak**, которая может повли

Abstract

In this study, we disclose a worrying new vulnerability in Large Language Models (LLMs), which we term \textbf{involuntary jailbreak}. Unlike existing jailbreak attacks, this weakness is distinct in that it does not involve a specific attack objective, such as generating instructions for \textit{building a bomb}. Prior attack methods predominantly target localized components of the LLM guardrail. In contrast, involuntary jailbreaks may potentially compromise the entire guardrail structure, which our method reveals to be surprisingly fragile. We merely employ a single universal prompt to achieve this goal. In particular, we instruct LLMs to generate several questions that would typically be rejected, along with their corresponding in-depth responses (rather than a refusal). Remarkably, this simple prompt strategy consistently jailbreaks the majority of leading LLMs, including Claude Opus 4.1, Grok 4, Gemini 2.5 Pro, and GPT 4.1. We hope this problem can motivate researchers and practitioners to re-evaluate the robustness of LLM guardrails and contribute to stronger safety alignment in future.

Ссылки и действия