OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages
2508.16048v1
cs.CL, cs.AI
2025-08-26
Авторы:
Raphaël Merx, Hanna Suominen, Trevor Cohn, Ekaterina Vylomova
Резюме на русском
## Контекст
Трансляция в сфере здравоохранения является важной, но высокорискованной областью трансляции, характеризующейся распространенным использованием и уникальным лексиконом. Несмотря на это, недостаточно ресурсов в виде высококачественных данных для обучения машинного перевода в этой области, особенно для низкоресурсных языков. Это ограничивает развитие эффективных систем трансляции в здравоохранении. Отсутствие эффективных тестовых наборов данных для оценки качества перевода в этой сфере существенно мешает развитию технологий. Мы предлагаем OpenWHO, новый документ-уровневый параллельный корпус, содержащий материалы с платформы электронного обучения Международной организации здравоохранения. Этот корпус включает 2,978 документов и 26,824 предложений на 20+ языках, включая 9 низкоресурсных. Наша мотивация заключается в том, чтобы сделать данные доступными для улучшения качества трансляции в здравоохранении для низкоресурсных языков.
## Метод
Мы создали OpenWHO как документ-уровневый параллельный корпус, сформированный из материалов с платформы WHO. Эти материалы были написаны экспертами и профессионально переведены, что обеспечивает высокое качество исходных данных. Мы оценили качество перевода с помощью традиционных MT-систем, а также современных ло LLM-систем, включая Gemini 2.5 Flash. Используя различные тестовые наборы, мы изучили, как системы LLM используют контекст уровня документа для улучшения точности перевода. Мы также изучили, как технологии LLM работают в сфере здравоохранения и по каким причинам они могут быть эффективными.
## Результаты
Мы провели эксперименты сравнивая традиционные MT-системы с моделями LLM на нашем новом корпусе. Наши результаты показали, что современные модели LLM показывают значительные преимущества в сфере здравоохранения. Например, Gemini 2.5 Flash показал +4.79 ChrF-пунктов улучшение по сравнению с NLLB-54B на низкоресурсных языках. Мы также проанализировали, как различные модели LLM используют контекст в документах для улучшения точности перевода. Результаты показали, что контекст документа значительно повышает точность, особенно в сфере здравоохранения. Это объясняется тем, что в этой области часто используются термины и концепции, которые требуют глубокого понимания контекста.
## Значимость
Наш корпус и результаты экспериментов могут быть применимы в различных областях, которые требуют высокой точности в трансляции. Особенно важно это для низкоресурсных языков, где качество перевода часто оставляет желать лучшего. Мы показали, что LLM
Abstract
In machine translation (MT), health is a high-stakes domain characterised by
widespread deployment and domain-specific vocabulary. However, there is a lack
of MT evaluation datasets for low-resource languages in this domain. To address
this gap, we introduce OpenWHO, a document-level parallel corpus of 2,978
documents and 26,824 sentences from the World Health Organization's e-learning
platform. Sourced from expert-authored, professionally translated materials
shielded from web-crawling, OpenWHO spans a diverse range of over 20 languages,
of which nine are low-resource. Leveraging this new resource, we evaluate
modern large language models (LLMs) against traditional MT models. Our findings
reveal that LLMs consistently outperform traditional MT models, with Gemini 2.5
Flash achieving a +4.79 ChrF point improvement over NLLB-54B on our
low-resource test set. Further, we investigate how LLM context utilisation
affects accuracy, finding that the benefits of document-level translation are
most pronounced in specialised domains like health. We release the OpenWHO
corpus to encourage further research into low-resource MT in the health domain.
Ссылки и действия
Дополнительные ресурсы: