The illusion of a perfect metric: Why evaluating AI's words is harder than it looks

2508.13816v1 cs.CL, cs.AI 2025-08-21
Авторы:

Maria Paz Oliva, Adriana Correia, Ivan Vankov, Viktor Botev

Резюме на русском

#### Контекст Оценка языковой модели Natural Language Generation (NLG) является ключевым аспектом для практического применения искусственного интеллекта. Однако этот вопрос остается затруднительным и требует дополнительных исследований. Хотя человеческая оценка считается "золотым стандартом", она дорогостоящая и не масштабируема. Развитие технологий привело к созданию автоматических метрик, которые стремятся подставиться на место человеческого суждения. Изначально эти метрики основывались на лексических сходствах, затем перешли к семантическим похожестям, а сейчас часто используются Large Language Models (LLM) в качестве оценщиков. Тем не менее, показатели качества различных метрик отличаются, и пока не удалось создать метрику, которая была бы однозначно признана ведущей. Этот факт побудил авторов проанализировать основные проблемы и потенциальные пути решения в данной области. #### Метод Авторы описывают многочисленные автоматические метрики, развивавшиеся в течение многих лет. Они разделяют их на категории: лексические, семантические и LLM-based. Для каждой категории они предоставляют детальный обзор, описывая их принципы работы, достоинства и недостатки. Также рассматривается методология проведения экспериментов, в том члис с использованием разных датасетов и сравнением результатов с человеческими оценками. Особое внимание уделяется проблеме корреляции результатов с реальным человеческим суждением, которая остается нестабильной. #### Результаты На основе экспериментов, проведенных на различных датасетах и метриках, авторы показывают, что нет однозначной лидера среди метрик. Каждая из них обладает своими специфическими сильными сторонами и слабыми местами. Например, лексические метрики могут точно оценивать синтаксическую корректность, но не всегда коррелируют с семантическим смыслом. Аналогичным образом, LLM-based метрики демонстрируют высокую точность в некоторых задачах, но могут быть неэффективны в других. Также отмечается, что многие метрики дают разные результаты при разных датасетах и задачах, что снижает их универсальность. #### Значимость Результаты исследования показывают, что качество оценки NLG зависит от контекста и задачи. Например, для оценки генерируемого текста в сфере образования может быть более подходящей одна метрика, в то время как для оценки текста в новостной генерации — совсем другая. Авторы отмечают, что нет смысла искать "идеальный" метрику, которая бы покрывала все сферы применения. Они предлагают направить усилия на выбор метрик, подходящих для конкретных задач, и на развитие более структурированных методов валидации. #### Выводы Основ

Abstract

Evaluating Natural Language Generation (NLG) is crucial for the practical adoption of AI, but has been a longstanding research challenge. While human evaluation is considered the de-facto standard, it is expensive and lacks scalability. Practical applications have driven the development of various automatic evaluation metrics (AEM), designed to compare the model output with human-written references, generating a score which approximates human judgment. Over time, AEMs have evolved from simple lexical comparisons, to semantic similarity models and, more recently, to LLM-based evaluators. However, it seems that no single metric has emerged as a definitive solution, resulting in studies using different ones without fully considering the implications. This paper aims to show this by conducting a thorough examination of the methodologies of existing metrics, their documented strengths and limitations, validation methods, and correlations with human judgment. We identify several key challenges: metrics often capture only specific aspects of text quality, their effectiveness varies by task and dataset, validation practices remain unstructured, and correlations with human judgment are inconsistent. Importantly, we find that these challenges persist in the most recent type of metric, LLM-as-a-Judge, as well as in the evaluation of Retrieval Augmented Generation (RAG), an increasingly relevant task in academia and industry. Our findings challenge the quest for the 'perfect metric'. We propose selecting metrics based on task-specific needs and leveraging complementary evaluations and advocate that new metrics should focus on enhanced validation methodologies.

Ссылки и действия