Learning to Steer: Input-dependent Steering for Multimodal LLMs
2508.12815v1
cs.LG, cs.AI, cs.CL, cs.CV
2025-08-20
Авторы:
Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Arnaud Dapogny, Alasdair Newson, Matthieu Cord
Резюме на русском
## Контекст
В последние годы широко распространены трансфорер-модели, которые обладают выдающимися возможностями в области обработки естественного языка. Однако существуют ряд сложностей, в том числе связанные с ретроспективным контролем поведения моделей. Многие приложения требуют, чтобы модели не только генерировали ответы, но и проявляли определенную стратегию, например, отказывались от ответа при необходимости, привлекались к экспертам или указывали на сторонние ресурсы. Этот подход, известный как "steering" (руководство), вызывает значительный интерес, особенно для моделей, обрабатывающих множество видов данных (multimodal large language models, MLLMs).
Несмотря на существующие стратегии, такие как mean steering, они основываются на единственном статическом векторе направления, который не зависит от конкретного входного запроса. Это ограничение становится особенно заметным в случаях, когда результат должен зависеть от конкретного запроса. Например, правильное решение для запроса о медицинской информации может заключаться в указании на поиск квалифицированного специалиста.
В данной статье предлагается новый подход, называемый **L2S (Learn-to-Steer)**, который адресует эти ограничения, применяя вводно-зависимую стратегию руководства.
## Метод
MLLMs, такие как Flamingo и также многие другие, были разработаны для обработки разнообразного ввода, но их поведение часто недостаточно контролируется. Для решения этой проблемы предлагаются вводно-зависимые стратегии.
Процесс L2S включает следующие этапы:
1. **Input-Specific Prompting**: Для каждого ввода создается уникальная интерпретация, которая включает в себя специальные добавления, направляющие модель в нужном направлении.
2. **Linear Shift Calculation**: Используя вводно-зависимую интерпретацию, вычисляется линейный сдвиг, который определяет изменение поведения модели.
3. **Training Auxiliary Module**: На этапе обучения применяется небольшой модуль, который предсказывает линейный сдвиг, используя в качестве входных данных вводно-зависимую интерпретацию.
Этот подход позволяет выравнивать модель в соответствии с требованиями конкретного запроса, что делает ее более эффективной и безопасной в эксплуатации.
## Результаты
На экспериментальных данных показано, что L2S значительно сокращает зависимость от статических стратегий и улучшает результаты в следующих областях:
- **Reduction of Hallucinations**: Модель становится менее зависима от некорректных выводов, когда применяется L2S.
- **Safety Enforcement**: Модель намеренно отказывается от ответов в случаях, когда ответ может быть небезопасен или неправильным.
- **Comparison with Baselines**: Результаты L2S показывают значительные выигрыши по сравнению с
Abstract
Steering has emerged as a practical approach to enable post-hoc guidance of
LLMs towards enforcing a specific behavior. However, it remains largely
underexplored for multimodal LLMs (MLLMs); furthermore, existing steering
techniques, such as mean steering, rely on a single steering vector, applied
independently of the input query. This paradigm faces limitations when the
desired behavior is dependent on the example at hand. For example, a safe
answer may consist in abstaining from answering when asked for an illegal
activity, or may point to external resources or consultation with an expert
when asked about medical advice. In this paper, we investigate a fine-grained
steering that uses an input-specific linear shift. This shift is computed using
contrastive input-specific prompting. However, the input-specific prompts
required for this approach are not known at test time. Therefore, we propose to
train a small auxiliary module to predict the input-specific steering vector.
Our approach, dubbed as L2S (Learn-to-Steer), demonstrates that it reduces
hallucinations and enforces safety in MLLMs, outperforming other static
baselines.