Safety Alignment Should Be Made More Than Just A Few Attention Heads
2508.19697v1
cs.CR, cs.AI, cs.CL
2025-08-29
Авторы:
Chao Huang, Zefeng Zhang, Juewei Yue, Quangang Li, Chuang Zhang, Tingwen Liu
Резюме на русском
#### Контекст
Безопасность текстовых кLARGE LANGUAGE MODELS (LLMs) является ключевым аспектом их применения в реальном мире. Однако существующие механизмы безопасности LLMs часто оказываются уязвимыми перед тем, как специально создаваемые входные данные (adversarial prompts), которые могут обходить эти меры безопасности. Это происходит в основном из-за того, что большинство механизмов безопасности ориентируются на небольшое количество ататенциональных голов (attention heads), которые обеспечивают безопасность. Исследования показали, что удаление или блокировка этих голов может сильно затруднить надлежащее поведение модели в области безопасности. Это означает, что существующие системы безопасности текстовых моделей зачастую рискуют целиком полагаться на небольшую группу ататенциональных голов, что делает их эффективными целями для атак.
#### Метод
Мы предлагаем RDSHA (Refusal Direction-based Safety Head Ablation), метод абляции, который использует направление отказа модели (refusal direction) для идентификации голов внимания, которые играют ключевую роль в обеспечении безопасности. Этот метод позволяет определять те головы внимания, которые играют ключевую роль в процессе безопасности. Далее, мы применяем новую стратегию тренировки, AHD (Attention Head Distribution), которая предназначена для распределения тех же безопасных функций по множеству других голов внимания. Это позволяет модели распределять безопасность по более широкой области ататенциональных голов, что уменьшает зависимость от небольшого количества ключевых голов.
#### Результаты
Мы провести эксперименты, используя ряд различных безопасностных тестов и атак, включая mainstream jailbreak attacks. Мы проверили, насколько эффективно RDSHA может определять ключевые головы внимания, которые отвечают за безопасность. Далее, мы оценили, насколько эффективно AHD может распределять безопасность по более широкому набору голов внимания, и исследовали, насколько эта распределенная безопасность сохраняет эффективность и релевантность модели в реальных сценариях. Наши результаты показали, что AHD успешно распределяет безопасность по большему количеству голов внимания, что улучшает общую безопасность модели и уменьшает вероятность обхода этих механизмов.
#### Значимость
Улучшенные методы безопасности LLMs имеют большое значение для многих областей, включая образование, финансы, здравоохранение и транспорт. Наша работа демонстрирует, что распределенная безопасность может существенно улучшить надежность и безопасность LLMs в тех случаях, когда атаки на основе adversarial prompts становятся все более сложными
Abstract
Current safety alignment for large language models(LLMs) continues to present
vulnerabilities, given that adversarial prompting can effectively bypass their
safety measures.Our investigation shows that these safety mechanisms
predominantly depend on a limited subset of attention heads: removing or
ablating these heads can severely compromise model safety. To identify and
evaluate these safety-critical components, we introduce RDSHA, a targeted
ablation method that leverages the model's refusal direction to pinpoint
attention heads mostly responsible for safety behaviors. Further analysis shows
that existing jailbreak attacks exploit this concentration by selectively
bypassing or manipulating these critical attention heads. To address this
issue, we propose AHD, a novel training strategy designed to promote the
distributed encoding of safety-related behaviors across numerous attention
heads. Experimental results demonstrate that AHD successfully distributes
safety-related capabilities across more attention heads. Moreover, evaluations
under several mainstream jailbreak attacks show that models trained with AHD
exhibit considerably stronger safety robustness, while maintaining overall
functional utility.
Ссылки и действия
Дополнительные ресурсы: