Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

2508.20766v1 cs.CL, cs.AI, cs.LG 2025-08-29
Авторы:

Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem

Резюме на русском

#### Контекст Large Language Models (LLMs) широко используются для решения различных задач, но сталкиваются с проблемами безопасности и цензуры. Некоторые запросы могут привести к нежелательным или повредным результатам. Для устранения этой проблемы разработаны системы «безопасности ввода-вывода» (e.g., Llama Guard 3), которые отклоняют вводные запросы с потенциально неблагоприятными результатами. Однако в существующих системах обнаруживаются слабые места: некоторые вводные данные могут обходить эти механизмы, изменяя внутренние представления модели. Наша мотивация заключается в разработке эффективного, простого и недорогого метода для усиления безопасности LLMs. #### Метод Мы предлагаем Rank-One Safety Injection (ROSI), метод, основанный на тонкой настройке, который повышает безопасность LLMs. ROSI работает путем перманентного управления активациями модели, направляя их в направление, отвергающее нежелательные запросы. Это достигается за счет однорангового модификатора весов, применяемого ко всем матрицам записи резидентных потоков. Для вычисления безопасного направления требуется малая выборка синтетических инструкций, обозначающих границы безопасности. ROSI легко интегрируется в существующие модели без требуемых для тонкой настройки ресурсов. #### Результаты Мы провели эксперименты на модели Llama Guard 3, оценивая расходимость безопасности перед и после применения ROSI. Наши результаты показали, что ROSI повышает безопасность, существенно увеличивая отказы в обработке неблагоприятных запросов. Измерения показали, что улучшения безопасности не приводят к ухудшению производительности на стандартных тестовых наборах (MMLU, HellaSwag, Arc). Мы также проверили, насколько эффективен ROSI при усилении безопасности «неограниченных» моделей, результаты показали, что он может добиваться повышения безопасности, даже в таких случаях. #### Значимость ROSI может применяться в различных сферах, где требуется цензура и безопасность ввода-вывода. Он предлагает простой, недорогой и эффективный способ улучшения безопасности LLMs. Этот подход может быть использован как дополнительный метод в существующих системах безопасности, а также в качестве последнего этапа в цепочке безопасности, где потребуется минимальный ресурсный вклад. #### Выводы Мы доказали, что ROSI является эффективным инструментом для повышения безопасности LLMs, за счет управления внутренними активациями модели. Наша работа показывает, что целевое интерпретируемое управление весами может стать отличным вариантом для улучшения безопасности, даже при ограниченных ресурсах. Будущие исследования б

Abstract

Safety alignment in Large Language Models (LLMs) often involves mediating internal representations to refuse harmful requests. Recent research has demonstrated that these safety mechanisms can be bypassed by ablating or removing specific representational directions within the model. In this paper, we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box method that amplifies a model's safety alignment by permanently steering its activations toward the refusal-mediating subspace. ROSI operates as a simple, fine-tuning-free rank-one weight modification applied to all residual stream write matrices. The required safety direction can be computed from a small set of harmful and harmless instruction pairs. We show that ROSI consistently increases safety refusal rates - as evaluated by Llama Guard 3 - while preserving the utility of the model on standard benchmarks such as MMLU, HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align 'uncensored' models by amplifying their own latent safety directions, demonstrating its utility as an effective last-mile safety procedure. Our results suggest that targeted, interpretable weight steering is a cheap and potent mechanism to improve LLM safety, complementing more resource-intensive fine-tuning paradigms.

Ссылки и действия