A French Version of the OLDI Seed Corpus
2508.02290v1
cs.CL
2025-08-09
Авторы:
Malik Marmonier, Benoît Sagot, Rachel Bawden
Резюме на русском
Резюме:
Авторы представляют первую французскую часть OLDI Seed Corpus, сданную в рамках WMT 2025 Open Language Data Initiative. Эта работа описывает процесс создания корпуса, включавшего использование нескольких машинных переводческих систем и пост-редактирование специалистами. Отдельное внимание уделено трудностям перевода, вызванным спецификой исходных данных — смесью технической терминологии и неправильностей, характерных для пользовательских данных в Википедии. Этот корпус является важной ресурсной площадкой для сбора параллельных корпусов для региональных языков Франции. Несмотря на общий потенциал корпуса в обучении моделей, характеризующегося повышенной качественностью, требуется дополнительное исследование для оценки его удобства в применении.
Abstract
We present the first French partition of the OLDI Seed Corpus, our submission
to the WMT 2025 Open Language Data Initiative (OLDI) shared task. We detail its
creation process, which involved using multiple machine translation systems and
a custom-built interface for post-editing by qualified native speakers. We also
highlight the unique translation challenges presented by the source data, which
combines highly technical, encyclopedic terminology with the stylistic
irregularities characteristic of user-generated content taken from Wikipedia.
This French corpus is not an end in itself, but is intended as a crucial pivot
resource to facilitate the collection of parallel corpora for the
under-resourced regional languages of France.
Ссылки и действия
Дополнительные ресурсы: