Feeding Two Birds or Favoring One? Adequacy-Fluency Tradeoffs in Evaluation and Meta-Evaluation of Machine Translation

2509.20287v1 cs.CL, cs.AI, cs.LG 2025-09-26
Авторы:

Behzad Shayegh, Jan-Thorsten Peter, David Vilar, Tobias Domhan, Juraj Juraska, Markus Freitag, Lili Mou

Резюме на русском

## Контекст Машинный перевод (MT) является важной областью искусственного интеллекта, стремящейся преодолеть барьеры языков и обеспечить эффективную связь между культурами. Одним из ключевых аспектов MT является качество перевода, которое часто оценивается через две параметра: **адекватность** (точность в передаче смысла исходного текста) и **флуентность** (естественность и грамматическая правильность перевода). Несмотря на прогрессы в области MT, существуют проблемы с отношением этих составляющих. Например, люди часто воспринимают MT с высокой адекватностью и низкой флуентностью как менее приемлемым, чем текст с более высокой флуентностью, даже если он не так точен. Эта проблема влияет на выбор метрик для оценки качества MT. Настоящая работа исследует этот tradeoff и его влияние на выбор метрик для оценки качества перевода. ## Метод Работа основывается на многоуровневом подходе, включающем эксперименты на трех уровнях: **индивидуальном**, **групповом** и **мета-оценочном**. На первом уровне проводятся эксперименты с людьми, чтобы оценить тенденции в их предпочтениях к адекватности и флуентности. На втором уровне были рассмотрены метрики MT (точность, BLEU, COMET и другие), а на третьем — подходы к мета-оценке этих метрик в рамках WMT. Архитектура исследования включает в себя тестирование на различных парах языков и систем MT, а также анализ стандартных метрик и их взаимосвязи с личными предпочтениями людей. Для синтеза новой метрики использовалась аппроксимация личных оценок людей на основе множественных регрессий. ## Результаты Исследование показало, что популярные метрики MT, такие как BLEU и METEOR, значительно больше влияют на адекватность, чем на флуентность. Это отражается в том, что системы с высокой адекватностью получают более высокие оценки, даже когда их флуентность низкая. Опытные эксперименты показали, что люди часто предпочитают более флуентные тексты, даже когда они менее точны. Также выяснилось, что WMT meta-evaluation, которая обычно используется для сравнения MT-систем, жестко привязана к адекватности, что приводит к биазу в пользу метрик, ориентированных на адекватность. Добавление синтетических тестовых систем в WMT meta-evaluation позволило выявить этот биаз и улучшить точность оценок. ## Значимость Результаты имеют ключевую значимость для развития MT. Во-первых, они выявляют необходимость более широкого рассмотрения tradeoff между адекватностью и флуентностью при разработке и оценке метрик. Во-вторых, они позволяют улучшить WMT meta-evaluation, сделав ее более с

Abstract

We investigate the tradeoff between adequacy and fluency in machine translation. We show the severity of this tradeoff at the evaluation level and analyze where popular metrics fall within it. Essentially, current metrics generally lean toward adequacy, meaning that their scores correlate more strongly with the adequacy of translations than with fluency. More importantly, we find that this tradeoff also persists at the meta-evaluation level, and that the standard WMT meta-evaluation favors adequacy-oriented metrics over fluency-oriented ones. We show that this bias is partially attributed to the composition of the systems included in the meta-evaluation datasets. To control this bias, we propose a method that synthesizes translation systems in meta-evaluation. Our findings highlight the importance of understanding this tradeoff in meta-evaluation and its impact on metric rankings.

Ссылки и действия