Bridging Human and LLM Judgments: Understanding and Narrowing the Gap

2508.12792v1 cs.LG, cs.AI, cs.CL, stat.ML 2025-08-20
Авторы:

Felipe Maia Polo, Xinhe Wang, Mikhail Yurochkin, Gongjun Xu, Moulinath Banerjee, Yuekai Sun

Резюме на русском

## Контекст Large language models (LLMs) становятся все более популярными в качестве автоматизированных систем для оценки моделей. Однако их оценки часто сильно отличаются от человеческих оценок. Это может быть вызвано разными факторами, такими как различия в понимании языка, алгоритмов или наборах данных. Это расхождение приводит к проблемам в подготовке моделей и оценке их качества. Необходимо разработать методы, уменьшающие это расхождение и повышающие точность и достоверность автоматизированных оценок. ## Метод Разработана методология "Bridge", которая предлагает статистический подход для синхронизации оценок LLMs с человеческими оценками. Основная идея заключается в том, чтобы предположить скрытую ценность каждого пара prompt-response и определить, как это скрытое значение меняется в зависимости от различных ковариатов, влияющих на расхождения между LLM и человеческими оценками. Алгоритм Bridge использует модель линейных преобразований для предсказания и изменения значений, чтобы уменьшить расхождение. Также предлагается эффективный алгоритм для спецификации модели, обеспечивающий асимптотическую точность и интерпретируемость. ## Результаты Использовались шесть моделей LLM с двумя специальными наборами данных для оценки: BigGen Bench и Chatbot Arena. Результаты показали, что метод Bridge достиг более высокой точности и калибровки в сравнении с человеческими оценками. Он также удалось выявить места сильных расхождений между LLM и людьми, показав, где и почему происходят эти отклонения. Это позволило корректировать и оптимизировать модели, улучшая их соответствие реальным предпочтениям людей. ## Значимость Bridge может быть применен в различных областях, где необходимо автоматизированное оценочное жюри, такие как оценка текстовых моделей, принятие решений в юридических делах или анализ данных. Метод предоставляет значительные преимущества, такие как высокая точность, способность выявлять и оптимизировать расхождения, а также уменьшение времени и стоимости сбора человеческих данных. Потенциально, он может существенно повлиять на будущие направления в искусственном интеллекте, обеспечивая более точное и достоверное автоматизированное оценивание. ## Выводы Bridge представляет собой эффективный способ связать оценки LLMs с человеческими предпочтениями, уменьшив расхождения между ними. Он доказал свою эффективность на практике, повысив точность и калибровку оценок. Будущие исследования будут сфокусированы на расширении применимости Bridge к другим типам моделей и данных, а также на его использовании в широких областях применения.

Abstract

Large language models are increasingly used as judges (LLM-as-a-judge) to evaluate model outputs at scale, but their assessments often diverge systematically from human judgments. We present Bridge, a unified statistical framework that explicitly bridges human and LLM evaluations under both absolute scoring and pairwise comparison paradigms. Bridge posits a latent human preference score for each prompt-response pair and models LLM deviations as linear transformations of covariates that capture sources of discrepancies. This offers a simple and principled framework for refining LLM ratings and characterizing systematic discrepancies between humans and LLMs. We provide an efficient fitting algorithm with asymptotic guarantees for statistical inference. Using six LLM judges and two benchmarks (BigGen Bench and Chatbot Arena), Bridge achieves higher agreement with human ratings (accuracy, calibration, and KL divergence) and exposes systematic human-LLM gaps.

Ссылки и действия