SABER: Uncovering Vulnerabilities in Safety Alignment via Cross-Layer Residual Connection

2509.16060v1 cs.LG, cs.CL 2025-09-23
Авторы:

Maithili Joshi, Palash Nandi, Tanmoy Chakraborty

Резюме на русском

## Контекст Область глубокого обучения становится все более важной в современном мире, в том числе в области развития безопасных языковых моделей (LLMs). Эти модели используются для решения различных задач, от понимания естественного языка до генерации текстов. Однако наиболее безопасные языковые модели требуют тщательного выравнивания, чтобы обеспечить корректное поведение в отношении безопасных запросов, в то же время отвергая потенциально опасные или вредоносные вводы. Несмотря на эти усилия, такие модели остаются подверженными атакам-затуплению (jailbreak attacks), когда злоумышленники манипулируют моделью, чтобы вывести вредоносные или нежелательные ответы. Эти атаки представляют собой серьезную проблему, так как они могут повлиять на доверие к моделям и их применение в критических областях. В этом исследовании уделяется внимание ослаблению безопасности моделей через методы, направленные на выявление и использование проблем в их структуре. ## Метод Методология SABER (Safety Alignment Bypass via Extra Residuals) основывается на использовании резидуальных связей между слоями модели для изучения и выявления уязвимостей. Она построена на предположении, что основная часть безопасной алгоритмики находится в средних и поздних слоях модели. Метод SABER подключает две средние слои $s$ и $e$ с $s < e$ через резидуальную связь, что позволяет изучить трансформации в промежуточных слоях. Эта архитектура разработана для эффективного исследования того, как безопасная алгоритмика может быть обойдена с помощью целенаправленного манипулирования входными данными. Этот подход позволяет выявить слабые места в безопасности модели и повысить понимание способов их обойти. ## Результаты Экспериментальные исследования проводились на наборе данных HarmBench, который содержит запросы, специально созданные для проверки безопасности моделей. Использование SABER позволило повысить производительность на 51% в сравнении с лучшим базовым методом. Несмотря на повышение эффективности, SABER имеет малый вклад в увеличение perplexity (меры неопределенности модели при предсказании текста), что указывает на то, что он не сильно меняет принципиальное поведение модели в обычных условиях. Эти результаты подтверждают то, что SABER может эффективно выявлять уязвимости в безопасности моделей без существенного изменения их основного функционирования. ## Значимость Описанный подход имеет широкие перспективы применения в области безопасности языковых моделей. Он позволяет выявить проблемы в алгоритмах безопасного вывода, которые могут быть использованы для улучшения моделей. Также SABER может быть применен для тестировани

Abstract

Large Language Models (LLMs) with safe-alignment training are powerful instruments with robust language comprehension capabilities. These models typically undergo meticulous alignment procedures involving human feedback to ensure the acceptance of safe inputs while rejecting harmful or unsafe ones. However, despite their massive scale and alignment efforts, LLMs remain vulnerable to jailbreak attacks, where malicious users manipulate the model to produce harmful outputs that it was explicitly trained to avoid. In this study, we find that the safety mechanisms in LLMs are predominantly embedded in the middle-to-late layers. Building on this insight, we introduce a novel white-box jailbreak method, SABER (Safety Alignment Bypass via Extra Residuals), which connects two intermediate layers $s$ and $e$ such that $s < e$, through a residual connection. Our approach achieves a 51% improvement over the best-performing baseline on the HarmBench test set. Furthermore, SABER induces only a marginal shift in perplexity when evaluated on the HarmBench validation set. The source code is publicly available at https://github.com/PalGitts/SABER.

Ссылки и действия