Jailbreaking Large Language Models Through Content Concretization
2509.12937v1
cs.CR, cs.AI, cs.CL
2025-09-18
Авторы:
Johan Wahréus, Ahmed Hussain, Panos Papadimitratos
Резюме на русском
## Контекст
Large Language Models (LLMs) широко используются для задач автоматизации и генерации контента, но их безопасность часто оказывается уязвимой перед различными jailbreaking-техниками. Однако существуют мало известные способы, которые могут обходить эти механизмы безопасности. Одной из таких техник является **Content Concretization (CC)**, которая представляет собой итеративный процесс, превращающий абстрактные вредоносные запросы в конкретные, выполнимые инструкции. Эта техника имеет два этапа: начальная генерация ответов LLM с помощью моделей с менее строгими фильтрами безопасности, а затем их уточнение с использованием более мощных моделей. Наша цель — исследовать эффективность этого подхода в обходе систем безопасности и оценить его потенциальное влияние на безопасность LLM.
## Метод
Методология **Content Concretization (CC)** состоит в передаче входных данных через несколько уровней LLM. На первом этапе используются модели с более снисходительными фильтрами безопасности для получения начальных ответов. На втором этапе эти ответы используются в качестве входных данных для более универсальных моделей, которые уточняют их в зависимости от исходного запроса. Эта методика позволяет использовать различные модели в зависимости от их возможностей и стоимости. Мы использовали 350 запросов, связанных с цибербезопасностью, для оценки эффективности техники CC. Для уточнения использовалась модель LLAMA 2, которая обрабатывала общие запросы, а затем выдавала более конкретные рекомендации.
## Результаты
Эксперименты показали, что **Content Concretization** значительно повышает успешность jailbreak-атак. Таким образом, успешность начального запроса с менее строгими моделями была 7%, а после трех итераций уточнения с помощью более сложных моделей стала 62%. Этот результат подтверждается тестами A/B, где тестовые сети с уточненным выводом получили высокие оценки на манипулятивности и технический уровень. Мы также провели ручную оценку кода, полученного в результате тестирования, и подтвердили, что он может выполняться с минимальными изменениями. Несмотря на это, для оптимального использования требуется настройка под конкретный целевой сервис.
## Значимость
Выделяются три направления применения **CC**: 1) тестирование безопасности LLM, 2) создание новых malicious code generator, 3) исследование уязвимостей в системах безопасности LLM. Одной из преимуществ данного подхода является его небольшая стоимость (7.5 центов за запрос) и разнообразие моделей, которые могут использоваться для уточнения. Изучение этой техники может помочь разработчикам LLM усовершенствовать свои системы безопасности, идентифицирова
Abstract
Large Language Models (LLMs) are increasingly deployed for task automation
and content generation, yet their safety mechanisms remain vulnerable to
circumvention through different jailbreaking techniques. In this paper, we
introduce \textit{Content Concretization} (CC), a novel jailbreaking technique
that iteratively transforms abstract malicious requests into concrete,
executable implementations. CC is a two-stage process: first, generating
initial LLM responses using lower-tier, less constrained safety filters models,
then refining them through higher-tier models that process both the preliminary
output and original prompt. We evaluate our technique using 350
cybersecurity-specific prompts, demonstrating substantial improvements in
jailbreak Success Rates (SRs), increasing from 7\% (no refinements) to 62\%
after three refinement iterations, while maintaining a cost of 7.5\textcent~per
prompt. Comparative A/B testing across nine different LLM evaluators confirms
that outputs from additional refinement steps are consistently rated as more
malicious and technically superior. Moreover, manual code analysis reveals that
generated outputs execute with minimal modification, although optimal
deployment typically requires target-specific fine-tuning. With eventual
improved harmful code generation, these results highlight critical
vulnerabilities in current LLM safety frameworks.
Ссылки и действия
Дополнительные ресурсы: