Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

2508.10390v1 cs.CL, cs.CR 2025-08-16
Авторы:

Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

Резюме на русском

## Контекст Область исследования связана с jailbreak-атаками на системы с открытым кодом, которые работают с текстовыми запросами. В процессе таких атак атакующий пользователь модифицирует входные запросы, называемые ловушками, для того чтобы привести к подчинению системы скрытым потребностям. Этот процесс может привести к нежелательным последствиям, таким как разглашение конфиденциальной информации или выполнение нежелательных операций. Настоящее исследование затрагивает проблему эффективного оценивания таких атак, когда ловушки не явно вызывают вредоносные поведения. Существующие датасеты и методы могут недостаточно точно оценивать эти ловушки, что приводит к неточностям в оценке эффективности защитных мероприятий. Наше исследование нацелено на создание методологии, которая позволит лучше понять и эффективно протестировать такие ловушки. ## Метод Для решения проблемы оценки таких атак предложена новая методология, которая основывается на совместной работе логики ввода-вывода и широкой группы тестовых ловушек. Методология включает в себя несколько этапов. В первую очередь, мы используем методы оценки, основанные на ИИ, для того чтобы автоматически определять вредоносность в ловушках. Но, чтобы улучшить точность, мы вводим человеческий фактор, который помогает оценивать непонятные случаи. Это делается с помощью гибридной модели, которая объединяет ИИ-анализ с ручным моделированием. Также, мы применяем новые подходы для симуляции контекста и улучшения цепочек мышления, которые позволяют лучше ориентироваться в процессе атаки. ## Результаты Мы провели исследования, используя различные датасеты, а также создали свои собственные ловушки для проверки эффективности наших методов. Результаты показали, что новая методология более точна в определении вредоносных ловушек по сравнению с существующими методами. Мы также установили, что использование специально сформированных пользовательских запросов может значительно увеличить успешность атак. Это предложение подтвердилось с помощью экспериментов, где мы смогли увеличить успешность атаки в несколько раз при помощи специальной тренировки ловушек. ## Значимость Метод, предложенный в настоящем исследовании, имеет широкие применения в области безопасности информационных систем, особенно в тех, которые работают с текстовыми запросами. Он может быть применен для оценки системы безопасности, для поиска уязвимостей и для разработки более эффективных методов защиты. Хорошо сформированные ловушки могут повысить уровень защиты от атак, а также

Abstract

Evaluating jailbreak attacks is challenging when prompts are not overtly harmful or fail to induce harmful outputs. Unfortunately, many existing red-teaming datasets contain such unsuitable prompts. To evaluate attacks accurately, these datasets need to be assessed and cleaned for maliciousness. However, existing malicious content detection methods rely on either manual annotation, which is labor-intensive, or large language models (LLMs), which have inconsistent accuracy in harmful types. To balance accuracy and efficiency, we propose a hybrid evaluation framework named MDH (Malicious content Detection based on LLMs with Human assistance) that combines LLM-based annotation with minimal human oversight, and apply it to dataset cleaning and detection of jailbroken responses. Furthermore, we find that well-crafted developer messages can significantly boost jailbreak success, leading us to propose two new strategies: D-Attack, which leverages context simulation, and DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets, judgements, and detection results will be released in github repository: https://github.com/AlienZhang1996/DH-CoT.

Ссылки и действия