Mask-GCG: Are All Tokens in Adversarial Suffixes Necessary for Jailbreak Attacks?

2509.06350v1 cs.CL, cs.AI, cs.CR 2025-09-10
Авторы:

Junjie Mu, Zonghao Ying, Zhekui Fan, Zonglei Jing, Yaoyuan Zhang, Zhengmin Yu, Wenxin Zhang, Quanchen Zou, Xiangzheng Zhang

Резюме на русском

#### Контекст Large Language Models (LLMs) являются мощными инструментами, используемыми в различных приложениях, от разработки контента до автоматизации бизнес-процессов. Однако их прочность может быть ослаблена методами злоупотребления, например, jailbreak-атаками. Эти атаки заставляют модели генерировать нежелательные или опасные ответы, тем самым уязвимости, которые они должны избегать. Одним из эффективных методов для создания таких атак является Greedy Coordinate Gradient (GCG), который оптимизирует токены в суффиксе промпта, чтобы добиться jailbreak-атаки. Несмотря на его эффективность, возникает вопрос о необходимости всех токенов в промпте. #### Метод Mask-GCG является расширением GCG, использующим плагиновую архитектуру с learnable token masking. Эта маска позволяет выделить токены с высоким влиянием на результат атаки, при этом низкого влияния токены могут быть удалены с минимального влияния на атаку. Это снижает необходимую вычислительную сложность и уменьшает размер градиентного пространства. Этот подход можно плагиново применять к оригинальной GCG, а также к другим вариантам GCG, чтобы проверить эффективность. Метод использует данные, включающие различные jailbreak-атаки и их результаты, чтобы проверить эффективность Mask-GCG. #### Результаты В экспериментах показано, что большинство токенов в суффиксе играют ключевую роль в успешности атаки. Однако прекращение использования незначительных токенов не приводит к потере успешности атаки, указывая на то, что многие токены не используются эффективно. Это подтверждает, что значительная часть токенов в суффиксе является избыточной. Это позволяет значительно сократить время, необходимое для успешного jailbreak-атаки, и уменьшить вычислительные затраты по сравнению с GCG. #### Значимость Метод Mask-GCG может быть применен в различных областях, где LLMs используются для защиты от злоупотребления. Он указывает на необходимость улучшения методов защиты от jailbreak-атак с учетом токенов в суффиксе. Это также открывает новые пути для разработки более эффективных и интерпретируемых моделей, которые могут быть реализованы в широком кругу приложений, включая NLP, безопасность и управление данными. #### Выводы Mask-GCG доказывает, что промпты jailbreak-атак могут быть эффективными, но при этом содержат значительную избыточность. Это решение позволяет оптимизировать промпты, уменьшая вычислительные затраты и увеличивая прозрачность атак. Наиболее важными направлениями будущих исследований являются расширение метода Mask-GCG на другие модели и улучшение его применения в реальных ситуациях для более эффективной защиты LLMs от злоупот

Abstract

Jailbreak attacks on Large Language Models (LLMs) have demonstrated various successful methods whereby attackers manipulate models into generating harmful responses that they are designed to avoid. Among these, Greedy Coordinate Gradient (GCG) has emerged as a general and effective approach that optimizes the tokens in a suffix to generate jailbreakable prompts. While several improved variants of GCG have been proposed, they all rely on fixed-length suffixes. However, the potential redundancy within these suffixes remains unexplored. In this work, we propose Mask-GCG, a plug-and-play method that employs learnable token masking to identify impactful tokens within the suffix. Our approach increases the update probability for tokens at high-impact positions while pruning those at low-impact positions. This pruning not only reduces redundancy but also decreases the size of the gradient space, thereby lowering computational overhead and shortening the time required to achieve successful attacks compared to GCG. We evaluate Mask-GCG by applying it to the original GCG and several improved variants. Experimental results show that most tokens in the suffix contribute significantly to attack success, and pruning a minority of low-impact tokens does not affect the loss values or compromise the attack success rate (ASR), thereby revealing token redundancy in LLM prompts. Our findings provide insights for developing efficient and interpretable LLMs from the perspective of jailbreak attacks.

Ссылки и действия