Play Favorites: A Statistical Method to Measure Self-Bias in LLM-as-a-Judge
2508.06709v1
cs.CL, cs.AI
2025-08-13
Авторы:
Evangelia Spiliopoulou, Riccardo Fogliato, Hanna Burnsky, Tamer Soliman, Jie Ma, Graham Horwood, Miguel Ballesteros
Резюме на русском
## Контекст
Искусственные нейронные сети, такие как текстовые генераторы (LLMs), становятся все более популярными в различных областях, включая оценку качества текста. Одна из проблем, с которой сталкиваются разработчики и оценщики таких систем, заключается в возможности самостоятельной оценки выданных ответов, когда система дает высокую оценку своим собственным текстам. Этот эффект, известный как "самостоятельная оценка" (self-bias), может оказывать существенное влияние на достоверность исследований и принятие решений на основе автоматизированных оценок. Актуальность исследования возрастает в связи с популярностью LLMs в сфере оценки текстов, включая системы, которые сами по себе являются оценщиками.
## Метод
Мы предлагаем статистическую модель, которая определяет и измеряет самостоятельную оценку в системах LLM-as-a-judge. Метод основывается на сравнении распределений оценок, выдаваемых LLM-судьями своим собственным текстам и текстам производимым другими моделями. Для того чтобы учесть независимость качества текста от самооценки, мы применяем методы независимых стохастических процессов. Таким образом, мы можем отделить самостоятельную оценку от действительных различий в качестве выдачи текста. Метод использует данные, состоящие из пар запрос-ответ, анализируемых рядом LLMs и оценками квалифицированных знатоков (человеков).
## Результаты
Мы проводили эксперименты на большом датасете, содержащем более 5000 пар запрос-ответ, подвергнутых оценке человеком и несколькими LLM-судьями. Наши результаты показали, что некоторые модели, такие как GPT-4o и Claude 3.5 Sonnet, систематически выдают высокие оценки своим собственным текстам. Мы также выявили семейную биаз — LLM модели с одинаковой семьей программного обеспечения дают высокую оценку друг другу. Наши результаты демонстрируют, что самостоятельная оценка может усложнять объективную оценку качества текста, и что существуют ситуации, когда оценки модели на самом деле не отражают ее реального качества.
## Значимость
Метод, предложенный в нашей работе, может быть применен в различных сферах, где необходима автоматизированная оценка текста. Он позволяет снизить риск самостоятельной оценки и дает возможность точнее определять реальное качество моделей. Это может быть полезно для повышения качества текста в области NLP, в том числе для повышения достоверности результатов в системах, в которых LLM-судьи используются для оценки других моделей. Наш метод также может быть применен для расширения возможностей автоматических систем в сфере текстовой оценки, ко
Abstract
Large language models (LLMs) can serve as judges that offer rapid and
reliable assessments of other LLM outputs. However, models may systematically
assign overly favorable ratings to their own outputs, a phenomenon known as
self-bias, which can distort evaluations of true model performance. Previous
studies often conflate genuine differences in model quality with bias or
incorrectly assume that evaluations from LLMs and humans follow the same rating
distributions. In this work, we present a statistical framework that explicitly
formalizes assumptions under which self-bias can be identified and estimated.
Our method models the difference in the scoring distribution that
LLM-as-a-judge assigns to its own completions compared to other models, while
accounting for the underlying quality of the completions provided by an
independent, third-party judge (e.g., humans). Our method reliably isolates and
quantifies self-bias, even when models vary in ability, ensuring that genuine
performance differences are not mistaken for self-bias. We conduct an empirical
analysis of self-bias on a large dataset (>5000 prompt-completion pairs)
consisting of expert human annotations and judgments from nine different LLM
judges. We find that some models, such as GPT-4o and Claude 3.5 Sonnet,
systematically assign higher scores to their own outputs. These models also
display family-bias; systematically assigning higher ratings to outputs
produced by other models of the same family. Our findings highlight potential
pitfalls of using LLM judges and offer practical guidance to mitigate biases
when interpreting automated evaluations.
Ссылки и действия
Дополнительные ресурсы: