COMET-poly: Machine Translation Metric Grounded in Other Candidates
2508.18549v1
cs.CL, I.2.7
2025-08-28
Авторы:
Maike Züfle, Vilém Zouhar, Tu Anh Dinh, Felipe Maia Polo, Jan Niehues, Mrinmaya Sachan
Резюме на русском
## Контекст
Оценка качества машинного перевода — важнейшая задача в области естественного языкового процессинга. Обычно это производится с помощью автоматических метрик, которые сравнивают генерируемый перевод с гуман-номерными текстами. Существующие метрики, однако, основываются только на сравнении одного перевода с исходным текстом, не учитывая важность контекста и вариантов. Это может привести к неточным оценкам. Недостаток в контекстной оценке особенно ощущается при обучении и оценке сложных моделей, таких как трансформеры. Мы предлагаем две новые метрики для автоматической оценки, которые используют дополнительные трансформации и возможности контекстной оценки.
## Метод
Мы предлагаем две разновидности метрики COMET-poly: COMET-polycand и COMET-polyic. COMET-polycand сравнивает трансформацию с несколькими альтернативными переводами одного и того же исходного текста. COMET-polyic, в свою очередь, использует трансформации задач, связанных с контекстом, и значения, взятые из гуман-номерных оценок. Мы используем модели, обученные на больших данных, чтобы вычислить степень сходства между трансформациями и гуман-номерными текстами. В ходе экспериментов мы применяем эти метрики к различным наборам данных и сравниваем их с существующими метриками, такими как BLEU и chrF.
## Результаты
В ходе экспериментов мы получили следующие результаты: COMET-polycand улучшился от 0.079 до 0.118 Kendall's tau-b корреляции, когда добавлялись дополнительные переводы. COMET-polyic также демонстрировал заметные улучшения, приближаясь к 0.116 Kendall's tau-b корреляции при использовании оценок из контекста. Эти результаты показывают, что добавление дополнительных трансформаций помогает улучшить точность оценки качества перевода.
## Значимость
Наши результаты имеют большое значение для практических приложений в области машинного перевода. Метрики COMET-poly позволяют оценивать качество трансформаций в более широком контексте, что может улучшить точность и надежность методов оценки. Это имеет прямое отношение к труду переводчиков, которые часто оценивают трансформации в контексте нескольких вариантов. Этот подход может быть использован в различных сценариях, таких как документация, онлайн-перевод и возможности автоматизации процесса перевода.
## Выводы
Мы представили две новые метрики для автоматической оценки качества машинного перевода, которые учитывают контекстный кандидат. Наши результаты показывают, что включение дополнительных переводов и контекстных данных может увеличить точность оценки. Мы планируем продолжать работу над улучшением этих метрик, включая разви
Abstract
Automated metrics for machine translation attempt to replicate human
judgment. Unlike humans, who often assess a translation in the context of
multiple alternatives, these metrics typically consider only the source
sentence and a single translation. This discrepancy in the evaluation setup may
negatively impact the performance of automated metrics. We propose two
automated metrics that incorporate additional information beyond the single
translation. COMET-polycand uses alternative translations of the same source
sentence to compare and contrast with the translation at hand, thereby
providing a more informed assessment of its quality. COMET-polyic, inspired by
retrieval-based in-context learning, takes in translations of similar source
texts along with their human-labeled quality scores to guide the evaluation. We
find that including a single additional translation in COMET-polycand improves
the segment-level metric performance (0.079 to 0.118 Kendall's tau-b
correlation), with further gains when more translations are added.
Incorporating retrieved examples in COMET-polyic yields similar improvements
(0.079 to 0.116 Kendall's tau-b correlation). We release our models publicly.
Ссылки и действия
Дополнительные ресурсы: