Neither Valid nor Reliable? Investigating the Use of LLMs as Judges
2508.18076v1
cs.CL, I.2.7
2025-08-27
Авторы:
Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
Резюме на русском
## Контекст
Оценка естественного языкового понимания (NLG) остается главной проблемой в области естественного языкового обработки (NLP). Эта проблема усложняется вследствие появления больших языковых моделей (LLMs), которые стремятся быть универсальными. В последнее время, LLMs, названные LLJs (LLMs as Judges, языковые модели в качестве оценщиков), представляют собой потенциальное альтернативное решение для традиционных метрик оценки. Однако их достоверность и валидность в качестве оценщиков до сих пор требуют глубокого исследования. Это работа подчеркивает, что нынешний энтузиазм вокруг LLJs может быть преждевременным, поскольку их использование продвинулось вперед без достаточного количества критических исследований по оценке их надежности и валидности. Используя теорию измерения из социальных наук, авторы проводят критическое исследование 4 основных предположений о том, как LLJs могут выступать в качестве прокси-оценщиков человеческого суждения, каким образом они могут оценивать результаты, насколько они масштабируемы, и как эффективны в своих затратах.
## Метод
Авторы используют теорию измерения из социальных наук, чтобы рассмотреть 4 основных предположения о ЛЛМ-оценщиках. Они обобщают вопросы, связанные с возможностью ЛЛМ-оценщиков действовать в качестве прокси-инструментов для человеческих оценок, способностью оценивать результаты, масштабируемостью и экономичностью. Кроме того, они применяют эти подходы для оценки текстовой сводки, данных для аннотации и аспектов безопасности принятия решений. Авторы также приводят критическую интерпретацию, как эти технологии могут быть использованы для эффективной оценки языковых моделей.
## Результаты
Авторы выполняют критический анализ каждого из предположений об LLJs. Они показывают, что, несмотря на то, что ЛЛМ-оценщики могут быть эффективными для определенных задач, они не всегда справляются с оценкой взаимосвязанных показателей, таких как безопасность и человечность. Эксперименты показывают, что ЛЛМ-оценщики могут иногда быть неточными в их оценках, особенно при работе с контекстуально-зависимыми задачами. Они также выявляют риски частичной зависимости от конкретных условий, которые могут вызвать недостоверность.
## Значимость
Авторы подчеркивают, что ЛЛМ-оценщики могут быть полезны в некоторых ситуациях, но их возможности ограничены. Они желательны для задач, где требуется быстрая и удобная оценка, но могут не подходить для задач, требующих высокой точности и контекстуальной интерпретации. Это имеет зна
Abstract
Evaluating natural language generation (NLG) systems remains a core challenge
of natural language processing (NLP), further complicated by the rise of large
language models (LLMs) that aims to be general-purpose. Recently, large
language models as judges (LLJs) have emerged as a promising alternative to
traditional metrics, but their validity remains underexplored. This position
paper argues that the current enthusiasm around LLJs may be premature, as their
adoption has outpaced rigorous scrutiny of their reliability and validity as
evaluators. Drawing on measurement theory from the social sciences, we identify
and critically assess four core assumptions underlying the use of LLJs: their
ability to act as proxies for human judgment, their capabilities as evaluators,
their scalability, and their cost-effectiveness. We examine how each of these
assumptions may be challenged by the inherent limitations of LLMs, LLJs, or
current practices in NLG evaluation. To ground our analysis, we explore three
applications of LLJs: text summarization, data annotation, and safety
alignment. Finally, we highlight the need for more responsible evaluation
practices in LLJs evaluation, to ensure that their growing role in the field
supports, rather than undermines, progress in NLG.
Ссылки и действия
Дополнительные ресурсы: