Toward Preference-aligned Large Language Models via Residual-based Model Steering

2509.23982v1 cs.CL, cs.AI, cs.CY, cs.LG, cs.NE 2025-10-01

Авторы:

Lucio La Cava, Andrea Tagarelli

Резюме на русском

## Контекст Одна из основных проблем с Large Language Models (LLMs) заключается в том, чтобы выравнять их беспристрастную продуктивность с целями и предпочтениями пользователей. Несмотря на то, что существуют методы, такие как Reinforcement Learning from Human Feedback (RLHF) и Direct Preference Optimization (DPO), эти подходы требуют больших объемов данных, дорогостоящей оптимизации и постоянной адаптации модели к конкретным задачам. Это приводит к значительным затратам времени и ресурсов. Для решения этой проблемы необходимо разработать метод, который бы становился более эффективным, гибким и менее дешевле, не требовал бы огромных вычислительных мощностей и мог бы использоваться в разных сценариях применения. ## Метод Метод, предложенный в работе, называется **Preference alignment of Large Language Models via Residual Steering (PaLRS)**, и является тренировочно-свободным подходом. Он использует "резидуальные потоки" (residual streams), отражающие динамику нелинейных связей в модели, для извлечения легких в использовании векторов управления. Такие векторы могут быть применены во время инференса, чтобы направить модель на поведение, соответствующее предпочтениям пользователя. Метод требует сравнительно малого количества примеров (например, одного из сто до пользовательских предпочтений) для создания этих векторов управления. Это позволяет подстраивать модель под задачи и пользовательские требования без необходимости снова тренировать модель, а также обеспечивает высокую эффективность и гибкость. ## Результаты Авторы проверили PaLRS на различных опен-сорсных LLMs, включая модели малого и среднего масштаба. На бенчмарк-задачах, таких как математическое разумание и генерация кода, модели с PaLRS-встраиваемыми векторами управления показали значительные улучшения в производительности. Эти модели сохранили свои общие качественные показатели, такие как гибкость и базовые функциональные возможности, не потеряв в общей точности и галости. Кроме того, PaLRS показала значительные экономии времени и ресурсов по сравнению с Direct Preference Optimization (DPO), в то же время оставаясь более эффективной и перспективной альтернативой. ## Значимость Предлагаемый подход имеет широкие применения в области адаптации LLMs к пользовательским предпочтениям. Он может использоваться в сферах, где требуется высокая гибкость и эффективность в настройке моделей на особые задачи (например, генерация кода, медицинские задачи, специализированные задачи технического письма). Одним из преимуществ PaLRS является его тренировочно-свободный характер, который позволяет избежать времязатратных и ресурсоемких процессов оптимизации. Благодаря этому, PaLRS может быть широко использован в сценариях, где не

Abstract

Preference alignment is a critical step in making Large Language Models (LLMs) useful and aligned with (human) preferences. Existing approaches such as Reinforcement Learning from Human Feedback or Direct Preference Optimization typically require curated data and expensive optimization over billions of parameters, and eventually lead to persistent task-specific models. In this work, we introduce Preference alignment of Large Language Models via Residual Steering (PaLRS), a training-free method that exploits preference signals encoded in the residual streams of LLMs. From as few as one hundred preference pairs, PaLRS extracts lightweight, plug-and-play steering vectors that can be applied at inference time to push models toward preferred behaviors. We evaluate PaLRS on various small-to-medium-scale open-source LLMs, showing that PaLRS-aligned models achieve consistent gains on mathematical reasoning and code generation benchmarks while preserving baseline general-purpose performance. Moreover, when compared to DPO-aligned models, they perform better with huge time savings. Our findings highlight that PaLRS offers an effective, much more efficient and flexible alternative to standard preference optimization pipelines, offering a training-free, plug-and-play mechanism for alignment with minimal data.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация