Audio-Based Crowd-Sourced Evaluation of Machine Translation Quality
2509.14023v1
cs.CL, cs.HC
2025-09-19
Авторы:
Sami Ul Haq, Sheila Castilho, Yvette Graham
Резюме на русском
## Контекст
Машинный перевод (MT) демонстрирует значительные улучшения в качестве генерируемого текста. Однако оценка качества MT, как правило, ограничивается текстовым подходом, требующим чтения и сравнения текстов. Этот подход не соответствует реальным условиям, где MT часто применяется для говорящего языка, например, в системах Google Translate и iFLYTEK Translator. В этих ситуациях MT оценивается говорящим языком, не текстом. Это ограничение может привести к неточностям и недооценке качества перевода. Люди взаимодействуют с текстом и говорящим языком по-разному, что затрудняет точное определение качества MT. Поэтому необходимо развить более естественный подход к оценке качества MT, используя речи в качестве основного мода. Цель этой работы — сравнить текстовые и звуковые оценки качества перевода, используя реальные задачи перевода и звуковые транскрипции.
## Метод
Для исследования использовались 10 систем MT, участвовавших в WMT General MT Shared Task. Оценка проводилась в двух режимах: текстовый (пользователи сравнивали тексты) и звуковый (пользователи сравнивали говорящий язык). Данные были собраны с помощью Amazon Mechanical Turk. Оценки сравнения говорящего языка были сравнены с текстовыми оценками с помощью статистических методов. Для проверки надежности и кросс-валидации производились самоповторяющиеся эксперименты. Это позволило проверить, добавляет ли звуковая оценка дополнительной информации по сравнению с текстовой.
## Результаты
Результаты показали, что звуковая и текстовая оценки в большинстве случаев согласуются. Однако в некоторых ситуациях звуковые оценки выявили значительные различия между системами MT, которые не были замечены в текстовой оценке. Это объясняется тем, что говорящий язык естественнее и более естественно ощущается человеком, чем текст. Например, звуковые оценки могут выявлять ошибки в произношении или ритме, которые не видны в тексте. В целом, звуковые оценки показали себя как дополнительный важный показатель качества MT.
## Значимость
Звуковая оценка может использоваться в приложениях, где MT используется для говорящего языка, например, в системах распознавания речи, вождения автомобиля или медицинских приложениях. Звуковые оценки дают более натуральное представление качества перевода, чем текстовые. Таким образом, использование звуковых оценок может улучшить качество MT и привести к более точному пониманию его удобочитаемости и естественности.
## Выводы
Результаты показывают, что звуковые оценки могут быть ценным способом оценки качества MT и дополнением к
Abstract
Machine Translation (MT) has achieved remarkable performance, with growing
interest in speech translation and multimodal approaches. However, despite
these advancements, MT quality assessment remains largely text centric,
typically relying on human experts who read and compare texts. Since many
real-world MT applications (e.g Google Translate Voice Mode, iFLYTEK
Translator) involve translation being spoken rather printed or read, a more
natural way to assess translation quality would be through speech as opposed
text-only evaluations. This study compares text-only and audio-based
evaluations of 10 MT systems from the WMT General MT Shared Task, using
crowd-sourced judgments collected via Amazon Mechanical Turk. We additionally,
performed statistical significance testing and self-replication experiments to
test reliability and consistency of audio-based approach. Crowd-sourced
assessments based on audio yield rankings largely consistent with text only
evaluations but, in some cases, identify significant differences between
translation systems. We attribute this to speech richer, more natural modality
and propose incorporating speech-based assessments into future MT evaluation
frameworks.
Ссылки и действия
Дополнительные ресурсы: