Long-context Reference-based MT Quality Estimation
2509.13980v1
cs.CL, cs.LG
2025-09-19
Авторы:
Sami Ul Haq, Chinonso Cynthia Osuji, Sheila Castilho, Brian Davis
Резюме на русском
## Контекст
Область машинного перевода (MT) широко используется в различных сферах деятельности, таких как медицина, юриспруденция и техника. Однако качество перевода часто оставляет желать лучшего, что приводит к необходимости его оценки. Оценка качества MT стала важной задачей в машинном обучении, особенно при работе с многоязычными системами. Несмотря на развитие методик оценки качества, существуют проблемы, связанные с отсутствием долгого контекста и несогласованностью человеческих оценок. В данной работе авторы рассматривают эти проблемы и предлагают свой подход к решению.
## Метод
Для решения проблемы недостатка долгого контекста в обучении моделей MT Quality Estimation (QE) авторы предлагают использовать стратегию конкатенации независимых частей текста, таких как предложения или фразы, в одном документе. Для этих целей применяются корпуса MQM, SQM и DA, которые уже содержат человеческие оценки качества перевода. Затем вычисляется взвешенный средний скор для каждого документа, и эти данные используются для обучения модели. Архитектура модели основывается на COMET-шаблоне, которая обучается на многоязыковых данных с помощью регрессионных моделей. Эта модель выдает оценку качества перевода на основе исходного текста, перевода и специально подготовленных данных.
## Результаты
В ходе экспериментов авторы проверили свою модель на трёх различных наборах данных (MQM, SQM, DA), сравнив её с другими QE-системами. Оказалось, что использование долгого контекста существенно повышает корреляцию с человеческими оценками. Модель показала свою эффективность, превысив другие подходы с точки зрения точности и стабильности результатов. Это свидетельствует о положительном воздействии долгого контекста на качество MT QE.
## Значимость
Предлагаемый подход может быть применён в различных областях, где требуется качественный многоязычный перевод. Он может быть полезен для тех, кто работает с машинным обучением для оценки качества MT, а также для тех, кто использует MT в своей деятельности. Преимущество этого подхода заключается в том, что он учитывает долгосрочный контекст, что позволяет более точно оценивать качество перевода. Это может привести к улучшению качества перевода и увеличению удовлетворенности пользователей.
## Выводы
Результаты экспериментов подтвердили эффективность использования долгого контекста для повышения точности оценки качества перевода. Авторы предлагают продолжать работу над улучшением этой модели, в том числе направленной на понижение неоднозначности в человеческих оценках и расширение многоязыкового применения. Будущие исследования будут стремиться улучшить устойчивость модели и добиться её более
Abstract
In this paper, we present our submission to the Tenth Conference on Machine
Translation (WMT25) Shared Task on Automated Translation Quality Evaluation.
Our systems are built upon the COMET framework and trained to predict
segment-level Error Span Annotation (ESA) scores using augmented long-context
data.
To construct long-context training data, we concatenate in-domain,
human-annotated sentences and compute a weighted average of their scores.
We integrate multiple human judgment datasets (MQM, SQM, and DA) by
normalising their scales and train multilingual regression models to predict
quality scores from the source, hypothesis, and reference translations.
Experimental results show that incorporating long-context information
improves correlations with human judgments compared to models trained only on
short segments.
Ссылки и действия
Дополнительные ресурсы: