Neither Valid nor Reliable? Investigating the Use of LLMs as Judges
2508.18076v2
cs.CL, I.2.7
2025-08-29
Авторы:
Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
Резюме на русском
## Контекст
Оценка естественного языкового потока (NLG) остается значитейю проблемой в области NLP. Развитие крупных языковых моделей (LLMs), предназначенных для широкого применения, добавляет сложности к этой задаче. Хотя LLMs предлагаются как общего назначения, их применение в качестве оценщиков NLG-систем (LLJs) все еще требует дополнительных исследований. Несмотря на возрастающую популярность LLJs, их надежность и валидность как оценщиков находятся в стадии развития. Это решение подчеркивает необходимость взвешенного подхода к использованию LLJs и вызовет расширение знаний в этой области.
## Метод
Мы использовали теорию измерения из социальных наук для оценки LLJs. Эта теория определяет требующие дополнительного исследования предположения: 1) характер личности LLJs в качестве прокси-оценки, 2) значимость их оценки, 3) издержки и простоту их использования, 4) их походность и действительность в различных контекстах. Наш подход также включает эксперименты, которые исследуют непосредственное применение LLJs в трех реалиях: суммаризации текстов, классификации данных и выравнивании безопасности.
## Результаты
Исследования показали, что LLJs могут быть эффективными в некоторых случаях, но их ограничения, такие как трудность в подтверждении значения, стабильность и возможность вывода, достигаются только при ограниченном наборе данных. Например, оценка LLJs в области суммаризации показала, что их модели могут быть несправедливы и недостоверны, а косвенность в тестировании данных приводит к несогласованным выводам.
## Значимость
Применение LLJs может быть полезно в области тестирования языковых моделей, но, как показали исследования, требуется развитие подходов для улучшения надежности и стоимости их использования. Эти результаты могут иметь важное значение для развития методологии тестирования NLP.
## Выводы
Мы выдвигаем, что текущая практика использования LLJs в качестве NLG-оценщиков необходимо принять с большей внимательностью. Наше исследование открывает путь к будущим исследованиям, которые станут основой для развития более достоверных, эффективных и надежных методов оценки естественного языкового потока.
Abstract
Evaluating natural language generation (NLG) systems remains a core challenge
of natural language processing (NLP), further complicated by the rise of large
language models (LLMs) that aims to be general-purpose. Recently, large
language models as judges (LLJs) have emerged as a promising alternative to
traditional metrics, but their validity remains underexplored. This position
paper argues that the current enthusiasm around LLJs may be premature, as their
adoption has outpaced rigorous scrutiny of their reliability and validity as
evaluators. Drawing on measurement theory from the social sciences, we identify
and critically assess four core assumptions underlying the use of LLJs: their
ability to act as proxies for human judgment, their capabilities as evaluators,
their scalability, and their cost-effectiveness. We examine how each of these
assumptions may be challenged by the inherent limitations of LLMs, LLJs, or
current practices in NLG evaluation. To ground our analysis, we explore three
applications of LLJs: text summarization, data annotation, and safety
alignment. Finally, we highlight the need for more responsible evaluation
practices in LLJs evaluation, to ensure that their growing role in the field
supports, rather than undermines, progress in NLG.
Ссылки и действия
Дополнительные ресурсы: