Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators

2509.03647v1 cs.CL, cs.AI, cs.LG 2025-09-05
Авторы:

Dani Roytburg, Matthew Bozoukov, Matthew Nguyen, Jou Barzdukas, Simon Fu, Narmeen Oozeer

Резюме на русском

## Контекст В последние годы large language models (LLMs) становятся все более популярными как автоматизированные оценщики, используемые для различных задач, включая принятие решений и оценку качества. Однако эти модели часто страдают от "самопредпочтения" — склонности предпочитать свои собственные ответы другим моделям или данным. Эта проблема называется "self-preference bias" и является критическим недостатком для их использования в таких областях, как приемление предпочтений и маршрутизация моделей. Это может привести к несправедливости и нестабильности в результатах. Наша мотивация заключается в изучении и устранении этого биаса с использованием легких методов, которые могут быть применены непосредственно во время выполнения без необходимости переучивать модель. ## Метод Мы привлекли двухмерную методологию для точечного определения и контроля самопредпочтения. Основной фокус был на методике **Contrastive Activation Addition (CAA)**, которая включает в себя добавление мелких векторов направлений в пространство представлений модели. Мы также использовали оптимизационный подход, нацеленный на нахождение наилучших векторов направлений, которые могут снизить самопредпочтение без необходимости переучивать модель. Мы применили эти методы к данным, полученным из наших экспериментов с разными моделями и задачами, чтобы измерить эффективность нашего подхода. ## Результаты Мы провели эксперименты на curated dataset, разделенном на две категории: "justified" и "unjustified" self-preference. Наши результаты показали, что CAA и оптимизационный подход могут снизить незаконное самопредпочтение до 97%, что значительно превосходит базовые подходы, такие как prompting и direct preference optimization. Тем не менее, мы обнаружили, что steering vectors оказываются нестабильными при работе с безупречным самопредпочтением и безубезумными согласиями, что подчеркивает линейную или многомерную природу самопредпочтения. ## Значимость Наш подход продемонстрировал сильный потенциал в решении проблемы self-preference bias в LLM-based evaluators. Это может быть применено в области принятия решений, где необходимо обеспечить нейтральность и объективность. Кроме того, наша работа может способствовать развитию более справедливых и надежных систем оценки. ## Выводы Мы убедились, что steering vectors могут значительно снизить самопредпочтение в LLM-моделях, но они не являются идеальным решением для всех видов самопредпочтения. Наша работа открывает новые трудности и направления для будущих исследований, включая развитие более сложных методов для более точного детектирования и устранения различных типов самопредпочтения в моделях.

Abstract

Large language models (LLMs) increasingly serve as automated evaluators, yet they suffer from "self-preference bias": a tendency to favor their own outputs over those of other models. This bias undermines fairness and reliability in evaluation pipelines, particularly for tasks like preference tuning and model routing. We investigate whether lightweight steering vectors can mitigate this problem at inference time without retraining. We introduce a curated dataset that distinguishes self-preference bias into justified examples of self-preference and unjustified examples of self-preference, and we construct steering vectors using two methods: Contrastive Activation Addition (CAA) and an optimization-based approach. Our results show that steering vectors can reduce unjustified self-preference bias by up to 97\%, substantially outperforming prompting and direct preference optimization baselines. Yet steering vectors are unstable on legitimate self-preference and unbiased agreement, implying self-preference spans multiple or nonlinear directions. This underscores both their promise and limits as safeguards for LLM-as-judges and motivates more robust interventions.

Ссылки и действия