Bridging Human and LLM Judgments: Understanding and Narrowing the Gap
2508.12792v1
cs.LG, cs.AI, cs.CL, stat.ML
2025-08-20
Авторы:
Felipe Maia Polo, Xinhe Wang, Mikhail Yurochkin, Gongjun Xu, Moulinath Banerjee, Yuekai Sun
Резюме на русском
## Контекст
Large language models (LLMs) становятся все более популярными в качестве автоматизированных систем для оценки моделей. Однако их оценки часто сильно отличаются от человеческих оценок. Это может быть вызвано разными факторами, такими как различия в понимании языка, алгоритмов или наборах данных. Это расхождение приводит к проблемам в подготовке моделей и оценке их качества. Необходимо разработать методы, уменьшающие это расхождение и повышающие точность и достоверность автоматизированных оценок.
## Метод
Разработана методология "Bridge", которая предлагает статистический подход для синхронизации оценок LLMs с человеческими оценками. Основная идея заключается в том, чтобы предположить скрытую ценность каждого пара prompt-response и определить, как это скрытое значение меняется в зависимости от различных ковариатов, влияющих на расхождения между LLM и человеческими оценками. Алгоритм Bridge использует модель линейных преобразований для предсказания и изменения значений, чтобы уменьшить расхождение. Также предлагается эффективный алгоритм для спецификации модели, обеспечивающий асимптотическую точность и интерпретируемость.
## Результаты
Использовались шесть моделей LLM с двумя специальными наборами данных для оценки: BigGen Bench и Chatbot Arena. Результаты показали, что метод Bridge достиг более высокой точности и калибровки в сравнении с человеческими оценками. Он также удалось выявить места сильных расхождений между LLM и людьми, показав, где и почему происходят эти отклонения. Это позволило корректировать и оптимизировать модели, улучшая их соответствие реальным предпочтениям людей.
## Значимость
Bridge может быть применен в различных областях, где необходимо автоматизированное оценочное жюри, такие как оценка текстовых моделей, принятие решений в юридических делах или анализ данных. Метод предоставляет значительные преимущества, такие как высокая точность, способность выявлять и оптимизировать расхождения, а также уменьшение времени и стоимости сбора человеческих данных. Потенциально, он может существенно повлиять на будущие направления в искусственном интеллекте, обеспечивая более точное и достоверное автоматизированное оценивание.
## Выводы
Bridge представляет собой эффективный способ связать оценки LLMs с человеческими предпочтениями, уменьшив расхождения между ними. Он доказал свою эффективность на практике, повысив точность и калибровку оценок. Будущие исследования будут сфокусированы на расширении применимости Bridge к другим типам моделей и данных, а также на его использовании в широких областях применения.
Abstract
Large language models are increasingly used as judges (LLM-as-a-judge) to
evaluate model outputs at scale, but their assessments often diverge
systematically from human judgments. We present Bridge, a unified statistical
framework that explicitly bridges human and LLM evaluations under both absolute
scoring and pairwise comparison paradigms. Bridge posits a latent human
preference score for each prompt-response pair and models LLM deviations as
linear transformations of covariates that capture sources of discrepancies.
This offers a simple and principled framework for refining LLM ratings and
characterizing systematic discrepancies between humans and LLMs. We provide an
efficient fitting algorithm with asymptotic guarantees for statistical
inference. Using six LLM judges and two benchmarks (BigGen Bench and Chatbot
Arena), Bridge achieves higher agreement with human ratings (accuracy,
calibration, and KL divergence) and exposes systematic human-LLM gaps.