A Simple and Efficient Jailbreak Method Exploiting LLMs' Helpfulness

2509.14297v1 cs.CR, cs.CL 2025-09-20
Авторы:

Xuan Luo, Yue Wang, Zefeng He, Geng Tu, Jing Li, Ruifeng Xu

Резюме на русском

#### Контекст Large Language Models (LLMs) широко применяются в различных областях, но при этом носят в себе потенциальный риск предоставления вредоносных ответов. Для укрепления безопасности LLMs развиваются методы безопасного выравнивания, направленные на предотвращение вредоносных запросов. Однако злоумышленники могут применять jailbreak-методы, которые симулируют атаки, чтобы выявить слабые места безопасности. В данной работе мы предлагаем HILL (Hiding Intention by Learning from LLMs) — новую jailbreak-методику, которая преобразует вредоносные запросы в обучающие вопросы, избегая явного выражения вредоносной интенции. Этот подход может стать полезным для тестирования безопасности LLMs и раскрытия их уязвимостей. #### Метод HILL основывается на методике гиперболического тестирования, которая позволяет превратить вредоносные запросы в вопросы с подчеркнутой позитивной окраской. Метод использует несколько ключевых индикаторов, чтобы создать прикрытый вопрос, который, при этом, не является явно вредоносным. HILL генерирует специальную архитектуру запросов, используя систему контроля предложений, которая специально скрывает суть вредоносности. Для тестирования подхода используются различные модели LLM, включая общедоступные и настраиваемые. Модель HILL продемонстрировала высокую эффективность в нахождении уязвимостей, даже при минимальных изменениях в запросе. #### Результаты Мы проверили HILL на датасете AdvBench, который содержит различные виды вредоносных запросов. Метод показал высокую эффективность, успешно атакуя большую часть моделей LLM, включая эксперименты с настраиваемыми моделями. HILL демонстрирует высокую степень общизированности и генерирует эффективные запросы с малой сложностью. Также мы реализовали ряд защитных методов и проверили их эффективность в отношении HILL. Оказалось, что большинство защитных методов не могут существенно снизить эффективность HILL, а даже некоторые ведут к усилению атак. Это указывает на значительные проблемы в современных методах безопасности для LLMs. #### Значимость HILL может быть использован в различных областях, где необходимо тестирование безопасности LLMs, в том числе в разработке безопасных моделей, в аудите безопасности и в тестировании безопасности для сторонних приложений. HILL демонстрирует преимущества в своей эффективности, систематичности и универсальности. Этот подход может способствовать развитию безопасности LLMs, выявляя уязвимости и позволяя разработчикам создавать более надежные системы. #### Выводы HILL продемонстрировал высокую эффективность в выявлении уязви

Abstract

Safety alignment aims to prevent Large Language Models (LLMs) from responding to harmful queries. To strengthen safety protections, jailbreak methods are developed to simulate malicious attacks and uncover vulnerabilities. In this paper, we introduce HILL (Hiding Intention by Learning from LLMs), a novel jailbreak approach that systematically transforms imperative harmful requests into learning-style questions with only straightforward hypotheticality indicators. Further, we introduce two new metrics to thoroughly evaluate the utility of jailbreak methods. Experiments on the AdvBench dataset across a wide range of models demonstrate HILL's strong effectiveness, generalizability, and harmfulness. It achieves top attack success rates on the majority of models and across malicious categories while maintaining high efficiency with concise prompts. Results of various defense methods show the robustness of HILL, with most defenses having mediocre effects or even increasing the attack success rates. Moreover, the assessment on our constructed safe prompts reveals inherent limitations of LLMs' safety mechanisms and flaws in defense methods. This work exposes significant vulnerabilities of safety measures against learning-style elicitation, highlighting a critical challenge of balancing helpfulness and safety alignments.

Ссылки и действия