Many-Turn Jailbreaking
2508.06755v1
cs.CL, cs.AI
2025-08-13
Авторы:
Xianjun Yang, Liqiang Xiao, Shiyang Li, Faisal Ladhak, Hyokun Yun, Linda Ruth Petzold, Yi Xu, William Yang Wang
Резюме на русском
#### Контекст
Большинство исследований по jailbreaking (обойти ограничения) бо LLM'a (large language models) фокусируются на single-turn jailbreaking, т.е. выводе небезопасных ответов на одиночные запросы. Это связано с тем, что тестирования LLM проводятся в условиях одного запроса или небольшого контекста. Однако современные LLM могут обрабатывать длинные контексты и участвовать в многократном общении. Это открывает новую проблему — multi-turn jailbreaking, когда LLM подвергается нескольким циклам взаимодействия, чтобы продолжить выводить небезопасные ответы. Эта проблема является более серьезной угрозой, так как пользователи часто задают фоллоу-уп вопросы, чтобы уточнить детали, и также LLM могут реагировать негативно на несвязанные вопросы.
#### Метод
Мы предлагаем Multi-Turn Jailbreak Benchmark (MTJ-Bench) как первый подход к оценке безопасности LLM в многократных циклах взаимодействия. Наша методология включает:
1. Создание набора данных сценариев для многократного взаимодействия.
2. Разработка метрик для оценки устойчивости LLM к jailbreaking.
3. Тестирование набора моделей (open- и closed-source) с разными параметрами.
4. Использование последовательных сценариев, в которых LLM подвергается нескольким запросам в цепочке.
#### Результаты
Использовались данные из открытого доступа и специально сконструированные сценарии для проверки моделей. Мы протестировали ряд моделей с разным количеством параметров и настройками. Результаты показали, что большинство моделей, даже с большим количеством параметров, остаются уязвимыми к multi-turn jailbreaking. Например, LLM могут продолжать выводить небезопасные ответы даже после нескольких смен в контексте.
#### Значимость
Результаты нашего исследования имеют значительное значение в следующих областях:
1. Безопасность и моральность использования LLM в различных приложениях.
2. Оптимизация и стабилизация LLM для многократного общения.
3. Разработка новых методов для определения и предотвращения небезопасных выводов.
4. Поддержка инициатив по созданию более безопасных и устойчивых LLM.
#### Выводы
Мы раскрыли новую угрозу в области безопасности моделей LLM, связанную с multi-turn jailbreaking. Наша работа показала, что LLM, прошедшие тестирование на single-turn jailbreaking, могут устойчивыми казаться, но уязвимы к многократному взаимодействию. Наше исследование выделяет необходимость в развитии новых методов и моделей, чтобы обеспечить безопасность и эффективность LLM в многократных сценариях общения. Будущие исследования будут направлены на улучшение архитектур моделей и развитие новых методов для противодействия таким угрозам.
Abstract
Current jailbreaking work on large language models (LLMs) aims to elicit
unsafe outputs from given prompts. However, it only focuses on single-turn
jailbreaking targeting one specific query. On the contrary, the advanced LLMs
are designed to handle extremely long contexts and can thus conduct multi-turn
conversations. So, we propose exploring multi-turn jailbreaking, in which the
jailbroken LLMs are continuously tested on more than the first-turn
conversation or a single target query. This is an even more serious threat
because 1) it is common for users to continue asking relevant follow-up
questions to clarify certain jailbroken details, and 2) it is also possible
that the initial round of jailbreaking causes the LLMs to respond to additional
irrelevant questions consistently. As the first step (First draft done at June
2024) in exploring multi-turn jailbreaking, we construct a Multi-Turn Jailbreak
Benchmark (MTJ-Bench) for benchmarking this setting on a series of open- and
closed-source models and provide novel insights into this new safety threat. By
revealing this new vulnerability, we aim to call for community efforts to build
safer LLMs and pave the way for a more in-depth understanding of jailbreaking
LLMs.
Ссылки и действия
Дополнительные ресурсы: