Toward Preference-aligned Large Language Models via Residual-based Model Steering
2509.23982v1
cs.CL, cs.AI, cs.CY, cs.LG, cs.NE
2025-10-01
Авторы:
Lucio La Cava, Andrea Tagarelli
Резюме на русском
## Контекст
Одна из основных проблем с Large Language Models (LLMs) заключается в том, чтобы выравнять их беспристрастную продуктивность с целями и предпочтениями пользователей. Несмотря на то, что существуют методы, такие как Reinforcement Learning from Human Feedback (RLHF) и Direct Preference Optimization (DPO), эти подходы требуют больших объемов данных, дорогостоящей оптимизации и постоянной адаптации модели к конкретным задачам. Это приводит к значительным затратам времени и ресурсов. Для решения этой проблемы необходимо разработать метод, который бы становился более эффективным, гибким и менее дешевле, не требовал бы огромных вычислительных мощностей и мог бы использоваться в разных сценариях применения.
## Метод
Метод, предложенный в работе, называется **Preference alignment of Large Language Models via Residual Steering (PaLRS)**, и является тренировочно-свободным подходом. Он использует "резидуальные потоки" (residual streams), отражающие динамику нелинейных связей в модели, для извлечения легких в использовании векторов управления. Такие векторы могут быть применены во время инференса, чтобы направить модель на поведение, соответствующее предпочтениям пользователя. Метод требует сравнительно малого количества примеров (например, одного из сто до пользовательских предпочтений) для создания этих векторов управления. Это позволяет подстраивать модель под задачи и пользовательские требования без необходимости снова тренировать модель, а также обеспечивает высокую эффективность и гибкость.
## Результаты
Авторы проверили PaLRS на различных опен-сорсных LLMs, включая модели малого и среднего масштаба. На бенчмарк-задачах, таких как математическое разумание и генерация кода, модели с PaLRS-встраиваемыми векторами управления показали значительные улучшения в производительности. Эти модели сохранили свои общие качественные показатели, такие как гибкость и базовые функциональные возможности, не потеряв в общей точности и галости. Кроме того, PaLRS показала значительные экономии времени и ресурсов по сравнению с Direct Preference Optimization (DPO), в то же время оставаясь более эффективной и перспективной альтернативой.
## Значимость
Предлагаемый подход имеет широкие применения в области адаптации LLMs к пользовательским предпочтениям. Он может использоваться в сферах, где требуется высокая гибкость и эффективность в настройке моделей на особые задачи (например, генерация кода, медицинские задачи, специализированные задачи технического письма). Одним из преимуществ PaLRS является его тренировочно-свободный характер, который позволяет избежать времязатратных и ресурсоемких процессов оптимизации. Благодаря этому, PaLRS может быть широко использован в сценариях, где не
Abstract
Preference alignment is a critical step in making Large Language Models
(LLMs) useful and aligned with (human) preferences. Existing approaches such as
Reinforcement Learning from Human Feedback or Direct Preference Optimization
typically require curated data and expensive optimization over billions of
parameters, and eventually lead to persistent task-specific models. In this
work, we introduce Preference alignment of Large Language Models via Residual
Steering (PaLRS), a training-free method that exploits preference signals
encoded in the residual streams of LLMs. From as few as one hundred preference
pairs, PaLRS extracts lightweight, plug-and-play steering vectors that can be
applied at inference time to push models toward preferred behaviors. We
evaluate PaLRS on various small-to-medium-scale open-source LLMs, showing that
PaLRS-aligned models achieve consistent gains on mathematical reasoning and
code generation benchmarks while preserving baseline general-purpose
performance. Moreover, when compared to DPO-aligned models, they perform better
with huge time savings. Our findings highlight that PaLRS offers an effective,
much more efficient and flexible alternative to standard preference
optimization pipelines, offering a training-free, plug-and-play mechanism for
alignment with minimal data.