Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

2508.18076v1 cs.CL, I.2.7 2025-08-27

Авторы:

Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi

Резюме на русском

## Контекст Оценка естественного языкового понимания (NLG) остается главной проблемой в области естественного языкового обработки (NLP). Эта проблема усложняется вследствие появления больших языковых моделей (LLMs), которые стремятся быть универсальными. В последнее время, LLMs, названные LLJs (LLMs as Judges, языковые модели в качестве оценщиков), представляют собой потенциальное альтернативное решение для традиционных метрик оценки. Однако их достоверность и валидность в качестве оценщиков до сих пор требуют глубокого исследования. Это работа подчеркивает, что нынешний энтузиазм вокруг LLJs может быть преждевременным, поскольку их использование продвинулось вперед без достаточного количества критических исследований по оценке их надежности и валидности. Используя теорию измерения из социальных наук, авторы проводят критическое исследование 4 основных предположений о том, как LLJs могут выступать в качестве прокси-оценщиков человеческого суждения, каким образом они могут оценивать результаты, насколько они масштабируемы, и как эффективны в своих затратах. ## Метод Авторы используют теорию измерения из социальных наук, чтобы рассмотреть 4 основных предположения о ЛЛМ-оценщиках. Они обобщают вопросы, связанные с возможностью ЛЛМ-оценщиков действовать в качестве прокси-инструментов для человеческих оценок, способностью оценивать результаты, масштабируемостью и экономичностью. Кроме того, они применяют эти подходы для оценки текстовой сводки, данных для аннотации и аспектов безопасности принятия решений. Авторы также приводят критическую интерпретацию, как эти технологии могут быть использованы для эффективной оценки языковых моделей. ## Результаты Авторы выполняют критический анализ каждого из предположений об LLJs. Они показывают, что, несмотря на то, что ЛЛМ-оценщики могут быть эффективными для определенных задач, они не всегда справляются с оценкой взаимосвязанных показателей, таких как безопасность и человечность. Эксперименты показывают, что ЛЛМ-оценщики могут иногда быть неточными в их оценках, особенно при работе с контекстуально-зависимыми задачами. Они также выявляют риски частичной зависимости от конкретных условий, которые могут вызвать недостоверность. ## Значимость Авторы подчеркивают, что ЛЛМ-оценщики могут быть полезны в некоторых ситуациях, но их возможности ограничены. Они желательны для задач, где требуется быстрая и удобная оценка, но могут не подходить для задач, требующих высокой точности и контекстуальной интерпретации. Это имеет зна

Abstract

Evaluating natural language generation (NLG) systems remains a core challenge of natural language processing (NLP), further complicated by the rise of large language models (LLMs) that aims to be general-purpose. Recently, large language models as judges (LLJs) have emerged as a promising alternative to traditional metrics, but their validity remains underexplored. This position paper argues that the current enthusiasm around LLJs may be premature, as their adoption has outpaced rigorous scrutiny of their reliability and validity as evaluators. Drawing on measurement theory from the social sciences, we identify and critically assess four core assumptions underlying the use of LLJs: their ability to act as proxies for human judgment, their capabilities as evaluators, their scalability, and their cost-effectiveness. We examine how each of these assumptions may be challenged by the inherent limitations of LLMs, LLJs, or current practices in NLG evaluation. To ground our analysis, we explore three applications of LLJs: text summarization, data annotation, and safety alignment. Finally, we highlight the need for more responsible evaluation practices in LLJs evaluation, to ensure that their growing role in the field supports, rather than undermines, progress in NLG.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Efficient Reasoning via Thought-Training and Thought-Free Inference

BIRD: Bronze Inscription Restoration and Dating

HACK: Hallucinations Along Certainty and Knowledge Axes

Decoding-Free Sampling Strategies for LLM Marginalization

Adapting Multilingual Models to Code-Mixed Tasks via Model Merging

Навигация