CCFC: Core & Core-Full-Core Dual-Track Defense for LLM Jailbreak Protection

2508.14128v1 cs.CR, cs.AI 2025-08-22
Авторы:

Jiaming Hu, Haoyu Wang, Debarghya Mukherjee, Ioannis Ch. Paschalidis

Резюме на русском

## Контекст Проникновение (jailbreak) моделей текстового понимания — это серьезная проблема, которая может привести к искажению ответов модели и эксплуатации её для злонамеренных целей. Эти атаки, такие как **prompt injection**, способствуют скрытому изменению вывода модели при помощи введения злонамеренных слов в запрос. Другой вид атаки — **structure-aware jailbreak** — ориентирован на изменение внутренней структуры запроса, чтобы извлечь нежелательные результаты. Необходимость в эффективных методах защиты от таких атак становится критичной в связи с растущим распространением широкоречевых моделей (LLM) в критичных областях, таких как финансы, здравоохранение и юридические системы. Традиционные подходы, такие как модификация процесса обучения или использование шифрования, часто оказываются недостаточно эффективными, так как не обеспечивают баланса между безопасностью и качеством ответов. ## Метод CCFC — это двойной подход защиты на уровне запросов, который разделяет запрос пользователя на **semantic core** (семантический ядро) и **full-core** (полное ядро). **Semantic core** используется для извлечения смысла запроса с помощью few-shot prompting, чтобы отфильтровать любые ненужные или злонамеренные слова. Этот подход используется в **Core track**, где модель ответает только на центральную часть запроса, игнорируя внешние помехи. В **Core-full-core track**, модель сравнивает ответы на полный запрос и его семантическое ядро. Если ответы не совпадают, то это означает, что запрос может содержать вредоносное воздействие, и ответ отклоняется. Это двойной контроль позволяет CCFC выявлять и отвергать атаки без повреждения качества ответов на легitimate запросы. ## Результаты Комплексный эксперимент проводился на нескольких стандартных датасетах, включая симуляции двух видов атак: 1) **prompt injection**, где в запросе внедрялись злонамеренные слова; 2) **structure-aware jailbreak**, где менялась внутренняя структура запроса. Результаты показали, что CCFC уменьшает успешность атак на 50-75% по сравнению с существующими защитными методами. Особенно выдачу CCFC в борьбе с градиентными атаками DeepInception и GCG, где её эффективность была наивысшей. Этот подход подтвердил свою эффективность в обеспечении безопасности без значительного снижения качества ответов на неатакуемые запросы. ## Значимость Потому что CCFC объединяет множество защитных механизмов, он может быть применён в различных сценариях, в которых широкоречевые модели применяются в критичных областях. Он не только повышает безопасность, но и повышает доверие в корректности информации, которую возвращает модель. Этот подход может быть использован в областях, таких

Abstract

Jailbreak attacks pose a serious challenge to the safe deployment of large language models (LLMs). We introduce CCFC (Core & Core-Full-Core), a dual-track, prompt-level defense framework designed to mitigate LLMs' vulnerabilities from prompt injection and structure-aware jailbreak attacks. CCFC operates by first isolating the semantic core of a user query via few-shot prompting, and then evaluating the query using two complementary tracks: a core-only track to ignore adversarial distractions (e.g., toxic suffixes or prefix injections), and a core-full-core (CFC) track to disrupt the structural patterns exploited by gradient-based or edit-based attacks. The final response is selected based on a safety consistency check across both tracks, ensuring robustness without compromising on response quality. We demonstrate that CCFC cuts attack success rates by 50-75% versus state-of-the-art defenses against strong adversaries (e.g., DeepInception, GCG), without sacrificing fidelity on benign queries. Our method consistently outperforms state-of-the-art prompt-level defenses, offering a practical and effective solution for safer LLM deployment.

Ссылки и действия