A Simple and Efficient Jailbreak Method Exploiting LLMs' Helpfulness
2509.14297v1
cs.CR, cs.CL
2025-09-20
Авторы:
Xuan Luo, Yue Wang, Zefeng He, Geng Tu, Jing Li, Ruifeng Xu
Резюме на русском
#### Контекст
Large Language Models (LLMs) широко применяются в различных областях, но при этом носят в себе потенциальный риск предоставления вредоносных ответов. Для укрепления безопасности LLMs развиваются методы безопасного выравнивания, направленные на предотвращение вредоносных запросов. Однако злоумышленники могут применять jailbreak-методы, которые симулируют атаки, чтобы выявить слабые места безопасности. В данной работе мы предлагаем HILL (Hiding Intention by Learning from LLMs) — новую jailbreak-методику, которая преобразует вредоносные запросы в обучающие вопросы, избегая явного выражения вредоносной интенции. Этот подход может стать полезным для тестирования безопасности LLMs и раскрытия их уязвимостей.
#### Метод
HILL основывается на методике гиперболического тестирования, которая позволяет превратить вредоносные запросы в вопросы с подчеркнутой позитивной окраской. Метод использует несколько ключевых индикаторов, чтобы создать прикрытый вопрос, который, при этом, не является явно вредоносным. HILL генерирует специальную архитектуру запросов, используя систему контроля предложений, которая специально скрывает суть вредоносности. Для тестирования подхода используются различные модели LLM, включая общедоступные и настраиваемые. Модель HILL продемонстрировала высокую эффективность в нахождении уязвимостей, даже при минимальных изменениях в запросе.
#### Результаты
Мы проверили HILL на датасете AdvBench, который содержит различные виды вредоносных запросов. Метод показал высокую эффективность, успешно атакуя большую часть моделей LLM, включая эксперименты с настраиваемыми моделями. HILL демонстрирует высокую степень общизированности и генерирует эффективные запросы с малой сложностью. Также мы реализовали ряд защитных методов и проверили их эффективность в отношении HILL. Оказалось, что большинство защитных методов не могут существенно снизить эффективность HILL, а даже некоторые ведут к усилению атак. Это указывает на значительные проблемы в современных методах безопасности для LLMs.
#### Значимость
HILL может быть использован в различных областях, где необходимо тестирование безопасности LLMs, в том числе в разработке безопасных моделей, в аудите безопасности и в тестировании безопасности для сторонних приложений. HILL демонстрирует преимущества в своей эффективности, систематичности и универсальности. Этот подход может способствовать развитию безопасности LLMs, выявляя уязвимости и позволяя разработчикам создавать более надежные системы.
#### Выводы
HILL продемонстрировал высокую эффективность в выявлении уязви
Abstract
Safety alignment aims to prevent Large Language Models (LLMs) from responding
to harmful queries. To strengthen safety protections, jailbreak methods are
developed to simulate malicious attacks and uncover vulnerabilities. In this
paper, we introduce HILL (Hiding Intention by Learning from LLMs), a novel
jailbreak approach that systematically transforms imperative harmful requests
into learning-style questions with only straightforward hypotheticality
indicators. Further, we introduce two new metrics to thoroughly evaluate the
utility of jailbreak methods. Experiments on the AdvBench dataset across a wide
range of models demonstrate HILL's strong effectiveness, generalizability, and
harmfulness. It achieves top attack success rates on the majority of models and
across malicious categories while maintaining high efficiency with concise
prompts. Results of various defense methods show the robustness of HILL, with
most defenses having mediocre effects or even increasing the attack success
rates. Moreover, the assessment on our constructed safe prompts reveals
inherent limitations of LLMs' safety mechanisms and flaws in defense methods.
This work exposes significant vulnerabilities of safety measures against
learning-style elicitation, highlighting a critical challenge of balancing
helpfulness and safety alignments.
Ссылки и действия
Дополнительные ресурсы: