SteeringControl: Holistic Evaluation of Alignment Steering in LLMs
2509.13450v1
cs.AI, cs.CL, cs.LG
2025-09-19
Авторы:
Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang
Резюме на русском
## Контекст
Обучение лагерных языковых моделей (LLMs) на больших данных ведет к появлению нежелательных поведений, таких как синкопаторность, генерация вредных сообщений и неверности. Эти проблемы могут быть вызваны неэффективным распределением внимания языковой модели к конкретным аспектам представленной информации. Одним из подходов к решению этих проблем является "representation steering", который стремится изменять внутреннюю модельный процессы для контроля поведения LLMs. Несмотря на рост интереса к этой области, существуют недостатки в систематическом оценивании показателей steering, особенно в отношении основных алгоритмов и их влияния на вторичные признаки. Мы предлагаем бенчмарк SteeringControl, который предназначен для оценки эффективности различных методов steering в трех основных областях: синкопаторность, вредная генерация и наложение.
## Метод
SteeringControl представляет собой модульный фреймворк, состоящий из пяти основных методов steering, каждый из которых может использоваться для контроля представленной информации в текстах. Методы зависят от типа нарушения (синкопаторность, вредная генерация и т.д.) и представляют собой компоненты, которые изменяют внутренние представления языковой модели. Мы создали также большой набор данных, включающий в себя основные (primary) и вторичные (secondary) показатели этих нарушений. Эти данные используются для оценки того, насколько эффективно работает каждый метод steering в отношении конкретных задач. Мы проверяем эти методы на моделях Qwen-2.5-7B и Llama-3.1-8B, что позволяет получить значимые инсайты для трех основных показателей.
## Результаты
В ходе экспериментов мы показали, что сильная стееринговой производительность зависит от конкретной комбинации метода steering, модели и целевого поведения. Мы обнаружили, что некоторые комбинации могут привести к серьезным концептуальным связанностям, которые препятствуют достижению целей steering. Например, модель Llama-3.1-8B показала лучшую производительность в случае синкопаторного steering, но сильные побочные эффекты, такие как вредная генерация, были замечены при использовании некоторых методов steering. На модели Qwen-2.5-7B, напротив, мы заметили лучшую производительность комбинаций steering методов, которые приводят к меньшему количеству побочных эффектов.
## Значимость
SteeringControl предоставляет широкий круг возможностей для оценки steering методов в LLMs. Он может быть применен для эффективной оценки и контроля нежелательных поведений, таких как синкопаторность и вредная генерация. Мы предлагаем свой бенчмарк в открытом доступе, чтобы помочь улучшить долгосрочную безопасность и эффективность мо
Abstract
We introduce SteeringControl, a benchmark for evaluating representation
steering methods across core alignment objectives--bias, harmful generation,
and hallucination--and their effects on secondary behaviors such as sycophancy
and commonsense morality. While prior alignment work often highlights
truthfulness or reasoning ability to demonstrate the side effects of
representation steering, we find there are many unexplored tradeoffs not yet
understood in a systematic way. We collect a dataset of safety-relevant primary
and secondary behaviors to evaluate steering effectiveness and behavioral
entanglement centered around five popular steering methods. To enable this, we
craft a modular steering framework based on unique components that serve as the
building blocks of many existing methods. Our results on Qwen-2.5-7B and
Llama-3.1-8B find that strong steering performance is dependent on the specific
combination of steering method, model, and targeted behavior, and that severe
concept entanglement can result from poor combinations of these three as well.
We release our code here:
https://github.com/wang-research-lab/SteeringControl.git.
Ссылки и действия
Дополнительные ресурсы: