Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators
2509.03647v1
cs.CL, cs.AI, cs.LG
2025-09-05
Авторы:
Dani Roytburg, Matthew Bozoukov, Matthew Nguyen, Jou Barzdukas, Simon Fu, Narmeen Oozeer
Резюме на русском
## Контекст
В последние годы large language models (LLMs) становятся все более популярными как автоматизированные оценщики, используемые для различных задач, включая принятие решений и оценку качества. Однако эти модели часто страдают от "самопредпочтения" — склонности предпочитать свои собственные ответы другим моделям или данным. Эта проблема называется "self-preference bias" и является критическим недостатком для их использования в таких областях, как приемление предпочтений и маршрутизация моделей. Это может привести к несправедливости и нестабильности в результатах. Наша мотивация заключается в изучении и устранении этого биаса с использованием легких методов, которые могут быть применены непосредственно во время выполнения без необходимости переучивать модель.
## Метод
Мы привлекли двухмерную методологию для точечного определения и контроля самопредпочтения. Основной фокус был на методике **Contrastive Activation Addition (CAA)**, которая включает в себя добавление мелких векторов направлений в пространство представлений модели. Мы также использовали оптимизационный подход, нацеленный на нахождение наилучших векторов направлений, которые могут снизить самопредпочтение без необходимости переучивать модель. Мы применили эти методы к данным, полученным из наших экспериментов с разными моделями и задачами, чтобы измерить эффективность нашего подхода.
## Результаты
Мы провели эксперименты на curated dataset, разделенном на две категории: "justified" и "unjustified" self-preference. Наши результаты показали, что CAA и оптимизационный подход могут снизить незаконное самопредпочтение до 97%, что значительно превосходит базовые подходы, такие как prompting и direct preference optimization. Тем не менее, мы обнаружили, что steering vectors оказываются нестабильными при работе с безупречным самопредпочтением и безубезумными согласиями, что подчеркивает линейную или многомерную природу самопредпочтения.
## Значимость
Наш подход продемонстрировал сильный потенциал в решении проблемы self-preference bias в LLM-based evaluators. Это может быть применено в области принятия решений, где необходимо обеспечить нейтральность и объективность. Кроме того, наша работа может способствовать развитию более справедливых и надежных систем оценки.
## Выводы
Мы убедились, что steering vectors могут значительно снизить самопредпочтение в LLM-моделях, но они не являются идеальным решением для всех видов самопредпочтения. Наша работа открывает новые трудности и направления для будущих исследований, включая развитие более сложных методов для более точного детектирования и устранения различных типов самопредпочтения в моделях.
Abstract
Large language models (LLMs) increasingly serve as automated evaluators, yet
they suffer from "self-preference bias": a tendency to favor their own outputs
over those of other models. This bias undermines fairness and reliability in
evaluation pipelines, particularly for tasks like preference tuning and model
routing. We investigate whether lightweight steering vectors can mitigate this
problem at inference time without retraining. We introduce a curated dataset
that distinguishes self-preference bias into justified examples of
self-preference and unjustified examples of self-preference, and we construct
steering vectors using two methods: Contrastive Activation Addition (CAA) and
an optimization-based approach. Our results show that steering vectors can
reduce unjustified self-preference bias by up to 97\%, substantially
outperforming prompting and direct preference optimization baselines. Yet
steering vectors are unstable on legitimate self-preference and unbiased
agreement, implying self-preference spans multiple or nonlinear directions.
This underscores both their promise and limits as safeguards for LLM-as-judges
and motivates more robust interventions.
Ссылки и действия
Дополнительные ресурсы: