LLM Jailbreak Detection for (Almost) Free!

2509.14558v1 cs.CR, cs.AI, cs.CL 2025-09-20
Авторы:

Guorui Chen, Yifan Xia, Xiaojun Jia, Zhijiang Li, Philip Torr, Jindong Gu

Резюме на русском

#### Контекст Large language models (LLMs) широко применяются за счет их высокой эффективности и безопасности, обеспеченной гармоничным выравниванием с целевыми ценностями. Однако они остаются уязвимы для jailbreak-атак, при которых модель может породить непристойный или злонамеренный контент. Эта проблема требует эффективных способов обнаружения и предотвращения таких атак. Существующие методы обнаружения jailbreak-атак часто требуют дополнительной вычислительной мощности или множественных проходов модели, что увеличивает стоимость использования LLMs в безопасных приложениях. Мотивация для данного исследования заключается в разработке простого, эффективного и низкозатратного метода для обнаружения jailbreak-атак. #### Метод Мы предлагаем Free Jailbreak Detection (FJD) — простой метод для обнаружения jailbreak-атак, который может быть легко интегрирован в существующие LLM-системы. FJD основывается на значимых различиях в выходных распределениях между jailbreak- и бенгвин-запросами. Метод вводит дополнительную инструкцию при запросе, которая "призывает" модель отвергать нежелательные запросы. Далее, мы усиливаем различия в выходных логитах с помощью температуры для масштабирования. Для дальнейшего улучшения FJD вводится виртуальное обучение инструкций, которое позволяет модели более точно отличать jailbreak-запросы. Эта интегральная архитектура обеспечивает высокую точность в обнаружении jailbreak-атак, не требуя дополнительных вычислений во время прямого использования LLM. #### Результаты Мы проверили FJD на нескольких LLM-системах, включая обученные на данных аллигации. В экспериментах мы сравнили FJD с другими методами обнаружения jailbreak-атак, измеряя точность, полноту и F1-меру. Результаты показали, что FJD показывает высокую точность и низкую ложноположительную стоимость, даже при очень малом дополнительном накладном времени во время инференса. Мы также проанализировали влияние различных факторов, таких как размер модели, температура и виртуальные инструкции, на точность FJD. Результаты показали, что FJD значительно превосходит другие методы в обнаружении jailbreak-атак с минимальными затратами. #### Значимость Метод FJD предлагает доступный и эффективный способ обнаружения jailbreak-атак, значительно сокращая затраты на вычисления. Он может быть легко реализован в существующих LLM-системах без необходимости многократного прохождения модели или дополнительных ресурсов. Это делает FJD привлекательным для приложений, где безопасность и экономичность имеют ключевое значение. Мы также выделяем потенциал FJD для будущих исследований в области безопасности LLMs, включая расширенное применение виртуальных ин

Abstract

Large language models (LLMs) enhance security through alignment when widely used, but remain susceptible to jailbreak attacks capable of producing inappropriate content. Jailbreak detection methods show promise in mitigating jailbreak attacks through the assistance of other models or multiple model inferences. However, existing methods entail significant computational costs. In this paper, we first present a finding that the difference in output distributions between jailbreak and benign prompts can be employed for detecting jailbreak prompts. Based on this finding, we propose a Free Jailbreak Detection (FJD) which prepends an affirmative instruction to the input and scales the logits by temperature to further distinguish between jailbreak and benign prompts through the confidence of the first token. Furthermore, we enhance the detection performance of FJD through the integration of virtual instruction learning. Extensive experiments on aligned LLMs show that our FJD can effectively detect jailbreak prompts with almost no additional computational costs during LLM inference.

Ссылки и действия