Audio-Based Crowd-Sourced Evaluation of Machine Translation Quality

2509.14023v1 cs.CL, cs.HC 2025-09-19

Авторы:

Sami Ul Haq, Sheila Castilho, Yvette Graham

Резюме на русском

## Контекст Машинный перевод (MT) демонстрирует значительные улучшения в качестве генерируемого текста. Однако оценка качества MT, как правило, ограничивается текстовым подходом, требующим чтения и сравнения текстов. Этот подход не соответствует реальным условиям, где MT часто применяется для говорящего языка, например, в системах Google Translate и iFLYTEK Translator. В этих ситуациях MT оценивается говорящим языком, не текстом. Это ограничение может привести к неточностям и недооценке качества перевода. Люди взаимодействуют с текстом и говорящим языком по-разному, что затрудняет точное определение качества MT. Поэтому необходимо развить более естественный подход к оценке качества MT, используя речи в качестве основного мода. Цель этой работы — сравнить текстовые и звуковые оценки качества перевода, используя реальные задачи перевода и звуковые транскрипции. ## Метод Для исследования использовались 10 систем MT, участвовавших в WMT General MT Shared Task. Оценка проводилась в двух режимах: текстовый (пользователи сравнивали тексты) и звуковый (пользователи сравнивали говорящий язык). Данные были собраны с помощью Amazon Mechanical Turk. Оценки сравнения говорящего языка были сравнены с текстовыми оценками с помощью статистических методов. Для проверки надежности и кросс-валидации производились самоповторяющиеся эксперименты. Это позволило проверить, добавляет ли звуковая оценка дополнительной информации по сравнению с текстовой. ## Результаты Результаты показали, что звуковая и текстовая оценки в большинстве случаев согласуются. Однако в некоторых ситуациях звуковые оценки выявили значительные различия между системами MT, которые не были замечены в текстовой оценке. Это объясняется тем, что говорящий язык естественнее и более естественно ощущается человеком, чем текст. Например, звуковые оценки могут выявлять ошибки в произношении или ритме, которые не видны в тексте. В целом, звуковые оценки показали себя как дополнительный важный показатель качества MT. ## Значимость Звуковая оценка может использоваться в приложениях, где MT используется для говорящего языка, например, в системах распознавания речи, вождения автомобиля или медицинских приложениях. Звуковые оценки дают более натуральное представление качества перевода, чем текстовые. Таким образом, использование звуковых оценок может улучшить качество MT и привести к более точному пониманию его удобочитаемости и естественности. ## Выводы Результаты показывают, что звуковые оценки могут быть ценным способом оценки качества MT и дополнением к

Abstract

Machine Translation (MT) has achieved remarkable performance, with growing interest in speech translation and multimodal approaches. However, despite these advancements, MT quality assessment remains largely text centric, typically relying on human experts who read and compare texts. Since many real-world MT applications (e.g Google Translate Voice Mode, iFLYTEK Translator) involve translation being spoken rather printed or read, a more natural way to assess translation quality would be through speech as opposed text-only evaluations. This study compares text-only and audio-based evaluations of 10 MT systems from the WMT General MT Shared Task, using crowd-sourced judgments collected via Amazon Mechanical Turk. We additionally, performed statistical significance testing and self-replication experiments to test reliability and consistency of audio-based approach. Crowd-sourced assessments based on audio yield rankings largely consistent with text only evaluations but, in some cases, identify significant differences between translation systems. We attribute this to speech richer, more natural modality and propose incorporating speech-based assessments into future MT evaluation frameworks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Audio-Based Crowd-Sourced Evaluation of Machine Translation Quality

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Is Lying Only Sinful in Islam? Exploring Religious Bias in Multilingual Large La...

ELR-1000: A Community-Generated Dataset for Endangered Indic Indigenous Language...

TaleFrame: An Interactive Story Generation System with Fine-Grained Control and ...

Critical or Compliant? The Double-Edged Sword of Reasoning in Chain-of-Thought E...

Critical or Compliant? The Double-Edged Sword of Reasoning in Chain-of-Thought E...

Навигация