CCFC: Core & Core-Full-Core Dual-Track Defense for LLM Jailbreak Protection
2508.14128v1
cs.CR, cs.AI
2025-08-22
Авторы:
Jiaming Hu, Haoyu Wang, Debarghya Mukherjee, Ioannis Ch. Paschalidis
Резюме на русском
## Контекст
Проникновение (jailbreak) моделей текстового понимания — это серьезная проблема, которая может привести к искажению ответов модели и эксплуатации её для злонамеренных целей. Эти атаки, такие как **prompt injection**, способствуют скрытому изменению вывода модели при помощи введения злонамеренных слов в запрос. Другой вид атаки — **structure-aware jailbreak** — ориентирован на изменение внутренней структуры запроса, чтобы извлечь нежелательные результаты. Необходимость в эффективных методах защиты от таких атак становится критичной в связи с растущим распространением широкоречевых моделей (LLM) в критичных областях, таких как финансы, здравоохранение и юридические системы. Традиционные подходы, такие как модификация процесса обучения или использование шифрования, часто оказываются недостаточно эффективными, так как не обеспечивают баланса между безопасностью и качеством ответов.
## Метод
CCFC — это двойной подход защиты на уровне запросов, который разделяет запрос пользователя на **semantic core** (семантический ядро) и **full-core** (полное ядро). **Semantic core** используется для извлечения смысла запроса с помощью few-shot prompting, чтобы отфильтровать любые ненужные или злонамеренные слова. Этот подход используется в **Core track**, где модель ответает только на центральную часть запроса, игнорируя внешние помехи. В **Core-full-core track**, модель сравнивает ответы на полный запрос и его семантическое ядро. Если ответы не совпадают, то это означает, что запрос может содержать вредоносное воздействие, и ответ отклоняется. Это двойной контроль позволяет CCFC выявлять и отвергать атаки без повреждения качества ответов на легitimate запросы.
## Результаты
Комплексный эксперимент проводился на нескольких стандартных датасетах, включая симуляции двух видов атак: 1) **prompt injection**, где в запросе внедрялись злонамеренные слова; 2) **structure-aware jailbreak**, где менялась внутренняя структура запроса. Результаты показали, что CCFC уменьшает успешность атак на 50-75% по сравнению с существующими защитными методами. Особенно выдачу CCFC в борьбе с градиентными атаками DeepInception и GCG, где её эффективность была наивысшей. Этот подход подтвердил свою эффективность в обеспечении безопасности без значительного снижения качества ответов на неатакуемые запросы.
## Значимость
Потому что CCFC объединяет множество защитных механизмов, он может быть применён в различных сценариях, в которых широкоречевые модели применяются в критичных областях. Он не только повышает безопасность, но и повышает доверие в корректности информации, которую возвращает модель. Этот подход может быть использован в областях, таких
Abstract
Jailbreak attacks pose a serious challenge to the safe deployment of large
language models (LLMs). We introduce CCFC (Core & Core-Full-Core), a
dual-track, prompt-level defense framework designed to mitigate LLMs'
vulnerabilities from prompt injection and structure-aware jailbreak attacks.
CCFC operates by first isolating the semantic core of a user query via few-shot
prompting, and then evaluating the query using two complementary tracks: a
core-only track to ignore adversarial distractions (e.g., toxic suffixes or
prefix injections), and a core-full-core (CFC) track to disrupt the structural
patterns exploited by gradient-based or edit-based attacks. The final response
is selected based on a safety consistency check across both tracks, ensuring
robustness without compromising on response quality. We demonstrate that CCFC
cuts attack success rates by 50-75% versus state-of-the-art defenses against
strong adversaries (e.g., DeepInception, GCG), without sacrificing fidelity on
benign queries. Our method consistently outperforms state-of-the-art
prompt-level defenses, offering a practical and effective solution for safer
LLM deployment.
Ссылки и действия
Дополнительные ресурсы: