SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

2509.13450v1 cs.AI, cs.CL, cs.LG 2025-09-19
Авторы:

Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang

Резюме на русском

## Контекст Обучение лагерных языковых моделей (LLMs) на больших данных ведет к появлению нежелательных поведений, таких как синкопаторность, генерация вредных сообщений и неверности. Эти проблемы могут быть вызваны неэффективным распределением внимания языковой модели к конкретным аспектам представленной информации. Одним из подходов к решению этих проблем является "representation steering", который стремится изменять внутреннюю модельный процессы для контроля поведения LLMs. Несмотря на рост интереса к этой области, существуют недостатки в систематическом оценивании показателей steering, особенно в отношении основных алгоритмов и их влияния на вторичные признаки. Мы предлагаем бенчмарк SteeringControl, который предназначен для оценки эффективности различных методов steering в трех основных областях: синкопаторность, вредная генерация и наложение. ## Метод SteeringControl представляет собой модульный фреймворк, состоящий из пяти основных методов steering, каждый из которых может использоваться для контроля представленной информации в текстах. Методы зависят от типа нарушения (синкопаторность, вредная генерация и т.д.) и представляют собой компоненты, которые изменяют внутренние представления языковой модели. Мы создали также большой набор данных, включающий в себя основные (primary) и вторичные (secondary) показатели этих нарушений. Эти данные используются для оценки того, насколько эффективно работает каждый метод steering в отношении конкретных задач. Мы проверяем эти методы на моделях Qwen-2.5-7B и Llama-3.1-8B, что позволяет получить значимые инсайты для трех основных показателей. ## Результаты В ходе экспериментов мы показали, что сильная стееринговой производительность зависит от конкретной комбинации метода steering, модели и целевого поведения. Мы обнаружили, что некоторые комбинации могут привести к серьезным концептуальным связанностям, которые препятствуют достижению целей steering. Например, модель Llama-3.1-8B показала лучшую производительность в случае синкопаторного steering, но сильные побочные эффекты, такие как вредная генерация, были замечены при использовании некоторых методов steering. На модели Qwen-2.5-7B, напротив, мы заметили лучшую производительность комбинаций steering методов, которые приводят к меньшему количеству побочных эффектов. ## Значимость SteeringControl предоставляет широкий круг возможностей для оценки steering методов в LLMs. Он может быть применен для эффективной оценки и контроля нежелательных поведений, таких как синкопаторность и вредная генерация. Мы предлагаем свой бенчмарк в открытом доступе, чтобы помочь улучшить долгосрочную безопасность и эффективность мо

Abstract

We introduce SteeringControl, a benchmark for evaluating representation steering methods across core alignment objectives--bias, harmful generation, and hallucination--and their effects on secondary behaviors such as sycophancy and commonsense morality. While prior alignment work often highlights truthfulness or reasoning ability to demonstrate the side effects of representation steering, we find there are many unexplored tradeoffs not yet understood in a systematic way. We collect a dataset of safety-relevant primary and secondary behaviors to evaluate steering effectiveness and behavioral entanglement centered around five popular steering methods. To enable this, we craft a modular steering framework based on unique components that serve as the building blocks of many existing methods. Our results on Qwen-2.5-7B and Llama-3.1-8B find that strong steering performance is dependent on the specific combination of steering method, model, and targeted behavior, and that severe concept entanglement can result from poor combinations of these three as well. We release our code here: https://github.com/wang-research-lab/SteeringControl.git.

Ссылки и действия