OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages

2508.16048v1 cs.CL, cs.AI 2025-08-26
Авторы:

Raphaël Merx, Hanna Suominen, Trevor Cohn, Ekaterina Vylomova

Резюме на русском

## Контекст Трансляция в сфере здравоохранения является важной, но высокорискованной областью трансляции, характеризующейся распространенным использованием и уникальным лексиконом. Несмотря на это, недостаточно ресурсов в виде высококачественных данных для обучения машинного перевода в этой области, особенно для низкоресурсных языков. Это ограничивает развитие эффективных систем трансляции в здравоохранении. Отсутствие эффективных тестовых наборов данных для оценки качества перевода в этой сфере существенно мешает развитию технологий. Мы предлагаем OpenWHO, новый документ-уровневый параллельный корпус, содержащий материалы с платформы электронного обучения Международной организации здравоохранения. Этот корпус включает 2,978 документов и 26,824 предложений на 20+ языках, включая 9 низкоресурсных. Наша мотивация заключается в том, чтобы сделать данные доступными для улучшения качества трансляции в здравоохранении для низкоресурсных языков. ## Метод Мы создали OpenWHO как документ-уровневый параллельный корпус, сформированный из материалов с платформы WHO. Эти материалы были написаны экспертами и профессионально переведены, что обеспечивает высокое качество исходных данных. Мы оценили качество перевода с помощью традиционных MT-систем, а также современных ло LLM-систем, включая Gemini 2.5 Flash. Используя различные тестовые наборы, мы изучили, как системы LLM используют контекст уровня документа для улучшения точности перевода. Мы также изучили, как технологии LLM работают в сфере здравоохранения и по каким причинам они могут быть эффективными. ## Результаты Мы провели эксперименты сравнивая традиционные MT-системы с моделями LLM на нашем новом корпусе. Наши результаты показали, что современные модели LLM показывают значительные преимущества в сфере здравоохранения. Например, Gemini 2.5 Flash показал +4.79 ChrF-пунктов улучшение по сравнению с NLLB-54B на низкоресурсных языках. Мы также проанализировали, как различные модели LLM используют контекст в документах для улучшения точности перевода. Результаты показали, что контекст документа значительно повышает точность, особенно в сфере здравоохранения. Это объясняется тем, что в этой области часто используются термины и концепции, которые требуют глубокого понимания контекста. ## Значимость Наш корпус и результаты экспериментов могут быть применимы в различных областях, которые требуют высокой точности в трансляции. Особенно важно это для низкоресурсных языков, где качество перевода часто оставляет желать лучшего. Мы показали, что LLM

Abstract

In machine translation (MT), health is a high-stakes domain characterised by widespread deployment and domain-specific vocabulary. However, there is a lack of MT evaluation datasets for low-resource languages in this domain. To address this gap, we introduce OpenWHO, a document-level parallel corpus of 2,978 documents and 26,824 sentences from the World Health Organization's e-learning platform. Sourced from expert-authored, professionally translated materials shielded from web-crawling, OpenWHO spans a diverse range of over 20 languages, of which nine are low-resource. Leveraging this new resource, we evaluate modern large language models (LLMs) against traditional MT models. Our findings reveal that LLMs consistently outperform traditional MT models, with Gemini 2.5 Flash achieving a +4.79 ChrF point improvement over NLLB-54B on our low-resource test set. Further, we investigate how LLM context utilisation affects accuracy, finding that the benefits of document-level translation are most pronounced in specialised domains like health. We release the OpenWHO corpus to encourage further research into low-resource MT in the health domain.

Ссылки и действия