Long-context Reference-based MT Quality Estimation

2509.13980v1 cs.CL, cs.LG 2025-09-19

Авторы:

Sami Ul Haq, Chinonso Cynthia Osuji, Sheila Castilho, Brian Davis

Резюме на русском

## Контекст Область машинного перевода (MT) широко используется в различных сферах деятельности, таких как медицина, юриспруденция и техника. Однако качество перевода часто оставляет желать лучшего, что приводит к необходимости его оценки. Оценка качества MT стала важной задачей в машинном обучении, особенно при работе с многоязычными системами. Несмотря на развитие методик оценки качества, существуют проблемы, связанные с отсутствием долгого контекста и несогласованностью человеческих оценок. В данной работе авторы рассматривают эти проблемы и предлагают свой подход к решению. ## Метод Для решения проблемы недостатка долгого контекста в обучении моделей MT Quality Estimation (QE) авторы предлагают использовать стратегию конкатенации независимых частей текста, таких как предложения или фразы, в одном документе. Для этих целей применяются корпуса MQM, SQM и DA, которые уже содержат человеческие оценки качества перевода. Затем вычисляется взвешенный средний скор для каждого документа, и эти данные используются для обучения модели. Архитектура модели основывается на COMET-шаблоне, которая обучается на многоязыковых данных с помощью регрессионных моделей. Эта модель выдает оценку качества перевода на основе исходного текста, перевода и специально подготовленных данных. ## Результаты В ходе экспериментов авторы проверили свою модель на трёх различных наборах данных (MQM, SQM, DA), сравнив её с другими QE-системами. Оказалось, что использование долгого контекста существенно повышает корреляцию с человеческими оценками. Модель показала свою эффективность, превысив другие подходы с точки зрения точности и стабильности результатов. Это свидетельствует о положительном воздействии долгого контекста на качество MT QE. ## Значимость Предлагаемый подход может быть применён в различных областях, где требуется качественный многоязычный перевод. Он может быть полезен для тех, кто работает с машинным обучением для оценки качества MT, а также для тех, кто использует MT в своей деятельности. Преимущество этого подхода заключается в том, что он учитывает долгосрочный контекст, что позволяет более точно оценивать качество перевода. Это может привести к улучшению качества перевода и увеличению удовлетворенности пользователей. ## Выводы Результаты экспериментов подтвердили эффективность использования долгого контекста для повышения точности оценки качества перевода. Авторы предлагают продолжать работу над улучшением этой модели, в том числе направленной на понижение неоднозначности в человеческих оценках и расширение многоязыкового применения. Будущие исследования будут стремиться улучшить устойчивость модели и добиться её более

Abstract

In this paper, we present our submission to the Tenth Conference on Machine Translation (WMT25) Shared Task on Automated Translation Quality Evaluation. Our systems are built upon the COMET framework and trained to predict segment-level Error Span Annotation (ESA) scores using augmented long-context data. To construct long-context training data, we concatenate in-domain, human-annotated sentences and compute a weighted average of their scores. We integrate multiple human judgment datasets (MQM, SQM, and DA) by normalising their scales and train multilingual regression models to predict quality scores from the source, hypothesis, and reference translations. Experimental results show that incorporating long-context information improves correlations with human judgments compared to models trained only on short segments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Long-context Reference-based MT Quality Estimation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация