UPRPRC: Unified Pipeline for Reproducing Parallel Resources -- Corpus from the United Nations

2509.15789v1 cs.CL, cs.LG 2025-09-23
Авторы:

Qiuyang Lu, Fangjian Shen, Zhengkai Tang, Qiang Liu, Hexuan Cheng, Hui Liu, Wushao Wen

Резюме на русском

## Контекст В последние годы многоязычные выборки данных становятся важной частью прогресса в области машинного перевода. Однако существуют проблемы в создании и использовании таких корпусов. Например, корпуса, построенные на основе документов Организации Объединенных Наций (ООН), часто имеют закрытый процесс построения и сложность в повторении результатов. Более того, многие такие корпуса ограничиваются малыми масштабами. Для решения этих проблем мы предлагаем UPRPRC - полностью открытый и полностью репродуцируемый метод для построения корпусов параллельных данных из документов ООН. Метод покрывает все этапы, от сбора данных через веб-скрейпинг до текстового выравнивания. Этот подход значительно увеличивает масштаб и качество данных, обеспечивает прозрачность процесса и повышает демократический доступ к ресурсам для исследований в машинном переводе. ## Метод Мы предлагаем UPRPRC как унифицированный процесс, который включает в себя следующие этапы: 1. **Сбор данных**: Мы используем веб-скрейпинг для извлечения документов из официальных источников ООН. Это позволяет собирать большие объемы данных с открытым доступом. 2. **Выделение и препроцессинг**: Мы разделяем документы на отдельные параграфы и применяем методы для очистки и нормализации текста. 3. **Граф-поaдающий выравнивание (GAPA)**: Новая методика для выравнивания параграфов на основе графов позволяет обнаруживать пары параграфов, которые являются переводами друг друга. Наша техника учитывает лексические, синтаксические и контекстуальные связи между параграфами. 4. **Масштабируемость**: Мы предлагаем распределенные решения, чтобы обрабатывать большие данные, но также предоставляем минималистичную версию для работы на одном компьютере. В результате мы получили корпус, содержащий 713 миллионов токенов в английском языке, что значительно превышает существующие параллельные корпуса. ## Результаты Мы провести несколько экспериментов, используя наш корпус, выявив значительные выгоды от использования GAPA. Для сравнения мы провели эксперименты с другими методами выравнивания, такими как базовый алгоритм гармонического среднего и предыдущие подходы. Наши результаты показали, что GAPA значительно повышает точность выравнивания параграфов, особенно для текстов, которые имеют сложные синтаксические и контекстуальные отношения. Мы также проверили наш корпус на нескольких моделях машинного перевода и обнаружили, что использование нашего корпуса повышает качество перевода, в том числе для низкоресурсных языков. ## Значи

Abstract

The quality and accessibility of multilingual datasets are crucial for advancing machine translation. However, previous corpora built from United Nations documents have suffered from issues such as opaque process, difficulty of reproduction, and limited scale. To address these challenges, we introduce a complete end-to-end solution, from data acquisition via web scraping to text alignment. The entire process is fully reproducible, with a minimalist single-machine example and optional distributed computing steps for scalability. At its core, we propose a new Graph-Aided Paragraph Alignment (GAPA) algorithm for efficient and flexible paragraph-level alignment. The resulting corpus contains over 713 million English tokens, more than doubling the scale of prior work. To the best of our knowledge, this represents the largest publicly available parallel corpus composed entirely of human-translated, non-AI-generated content. Our code and corpus are accessible under the MIT License.

Ссылки и действия