Many-Turn Jailbreaking

2508.06755v1 cs.CL, cs.AI 2025-08-13
Авторы:

Xianjun Yang, Liqiang Xiao, Shiyang Li, Faisal Ladhak, Hyokun Yun, Linda Ruth Petzold, Yi Xu, William Yang Wang

Резюме на русском

#### Контекст Большинство исследований по jailbreaking (обойти ограничения) бо LLM'a (large language models) фокусируются на single-turn jailbreaking, т.е. выводе небезопасных ответов на одиночные запросы. Это связано с тем, что тестирования LLM проводятся в условиях одного запроса или небольшого контекста. Однако современные LLM могут обрабатывать длинные контексты и участвовать в многократном общении. Это открывает новую проблему — multi-turn jailbreaking, когда LLM подвергается нескольким циклам взаимодействия, чтобы продолжить выводить небезопасные ответы. Эта проблема является более серьезной угрозой, так как пользователи часто задают фоллоу-уп вопросы, чтобы уточнить детали, и также LLM могут реагировать негативно на несвязанные вопросы. #### Метод Мы предлагаем Multi-Turn Jailbreak Benchmark (MTJ-Bench) как первый подход к оценке безопасности LLM в многократных циклах взаимодействия. Наша методология включает: 1. Создание набора данных сценариев для многократного взаимодействия. 2. Разработка метрик для оценки устойчивости LLM к jailbreaking. 3. Тестирование набора моделей (open- и closed-source) с разными параметрами. 4. Использование последовательных сценариев, в которых LLM подвергается нескольким запросам в цепочке. #### Результаты Использовались данные из открытого доступа и специально сконструированные сценарии для проверки моделей. Мы протестировали ряд моделей с разным количеством параметров и настройками. Результаты показали, что большинство моделей, даже с большим количеством параметров, остаются уязвимыми к multi-turn jailbreaking. Например, LLM могут продолжать выводить небезопасные ответы даже после нескольких смен в контексте. #### Значимость Результаты нашего исследования имеют значительное значение в следующих областях: 1. Безопасность и моральность использования LLM в различных приложениях. 2. Оптимизация и стабилизация LLM для многократного общения. 3. Разработка новых методов для определения и предотвращения небезопасных выводов. 4. Поддержка инициатив по созданию более безопасных и устойчивых LLM. #### Выводы Мы раскрыли новую угрозу в области безопасности моделей LLM, связанную с multi-turn jailbreaking. Наша работа показала, что LLM, прошедшие тестирование на single-turn jailbreaking, могут устойчивыми казаться, но уязвимы к многократному взаимодействию. Наше исследование выделяет необходимость в развитии новых методов и моделей, чтобы обеспечить безопасность и эффективность LLM в многократных сценариях общения. Будущие исследования будут направлены на улучшение архитектур моделей и развитие новых методов для противодействия таким угрозам.

Abstract

Current jailbreaking work on large language models (LLMs) aims to elicit unsafe outputs from given prompts. However, it only focuses on single-turn jailbreaking targeting one specific query. On the contrary, the advanced LLMs are designed to handle extremely long contexts and can thus conduct multi-turn conversations. So, we propose exploring multi-turn jailbreaking, in which the jailbroken LLMs are continuously tested on more than the first-turn conversation or a single target query. This is an even more serious threat because 1) it is common for users to continue asking relevant follow-up questions to clarify certain jailbroken details, and 2) it is also possible that the initial round of jailbreaking causes the LLMs to respond to additional irrelevant questions consistently. As the first step (First draft done at June 2024) in exploring multi-turn jailbreaking, we construct a Multi-Turn Jailbreak Benchmark (MTJ-Bench) for benchmarking this setting on a series of open- and closed-source models and provide novel insights into this new safety threat. By revealing this new vulnerability, we aim to call for community efforts to build safer LLMs and pave the way for a more in-depth understanding of jailbreaking LLMs.

Ссылки и действия