Jailbreaking Large Language Models Through Content Concretization

2509.12937v1 cs.CR, cs.AI, cs.CL 2025-09-18

Авторы:

Johan Wahréus, Ahmed Hussain, Panos Papadimitratos

Резюме на русском

## Контекст Large Language Models (LLMs) широко используются для задач автоматизации и генерации контента, но их безопасность часто оказывается уязвимой перед различными jailbreaking-техниками. Однако существуют мало известные способы, которые могут обходить эти механизмы безопасности. Одной из таких техник является **Content Concretization (CC)**, которая представляет собой итеративный процесс, превращающий абстрактные вредоносные запросы в конкретные, выполнимые инструкции. Эта техника имеет два этапа: начальная генерация ответов LLM с помощью моделей с менее строгими фильтрами безопасности, а затем их уточнение с использованием более мощных моделей. Наша цель — исследовать эффективность этого подхода в обходе систем безопасности и оценить его потенциальное влияние на безопасность LLM. ## Метод Методология **Content Concretization (CC)** состоит в передаче входных данных через несколько уровней LLM. На первом этапе используются модели с более снисходительными фильтрами безопасности для получения начальных ответов. На втором этапе эти ответы используются в качестве входных данных для более универсальных моделей, которые уточняют их в зависимости от исходного запроса. Эта методика позволяет использовать различные модели в зависимости от их возможностей и стоимости. Мы использовали 350 запросов, связанных с цибербезопасностью, для оценки эффективности техники CC. Для уточнения использовалась модель LLAMA 2, которая обрабатывала общие запросы, а затем выдавала более конкретные рекомендации. ## Результаты Эксперименты показали, что **Content Concretization** значительно повышает успешность jailbreak-атак. Таким образом, успешность начального запроса с менее строгими моделями была 7%, а после трех итераций уточнения с помощью более сложных моделей стала 62%. Этот результат подтверждается тестами A/B, где тестовые сети с уточненным выводом получили высокие оценки на манипулятивности и технический уровень. Мы также провели ручную оценку кода, полученного в результате тестирования, и подтвердили, что он может выполняться с минимальными изменениями. Несмотря на это, для оптимального использования требуется настройка под конкретный целевой сервис. ## Значимость Выделяются три направления применения **CC**: 1) тестирование безопасности LLM, 2) создание новых malicious code generator, 3) исследование уязвимостей в системах безопасности LLM. Одной из преимуществ данного подхода является его небольшая стоимость (7.5 центов за запрос) и разнообразие моделей, которые могут использоваться для уточнения. Изучение этой техники может помочь разработчикам LLM усовершенствовать свои системы безопасности, идентифицирова

Abstract

Large Language Models (LLMs) are increasingly deployed for task automation and content generation, yet their safety mechanisms remain vulnerable to circumvention through different jailbreaking techniques. In this paper, we introduce \textit{Content Concretization} (CC), a novel jailbreaking technique that iteratively transforms abstract malicious requests into concrete, executable implementations. CC is a two-stage process: first, generating initial LLM responses using lower-tier, less constrained safety filters models, then refining them through higher-tier models that process both the preliminary output and original prompt. We evaluate our technique using 350 cybersecurity-specific prompts, demonstrating substantial improvements in jailbreak Success Rates (SRs), increasing from 7\% (no refinements) to 62\% after three refinement iterations, while maintaining a cost of 7.5\textcent~per prompt. Comparative A/B testing across nine different LLM evaluators confirms that outputs from additional refinement steps are consistently rated as more malicious and technically superior. Moreover, manual code analysis reveals that generated outputs execute with minimal modification, although optimal deployment typically requires target-specific fine-tuning. With eventual improved harmful code generation, these results highlight critical vulnerabilities in current LLM safety frameworks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Jailbreaking Large Language Models Through Content Concretization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs

EmoRAG: Evaluating RAG Robustness to Symbolic Perturbations

Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent S...

MURMUR: Using cross-user chatter to break collaborative language agents in group...

GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Lea...

Навигация