UPRPRC: Unified Pipeline for Reproducing Parallel Resources -- Corpus from the United Nations
2509.15789v1
cs.CL, cs.LG
2025-09-23
Авторы:
Qiuyang Lu, Fangjian Shen, Zhengkai Tang, Qiang Liu, Hexuan Cheng, Hui Liu, Wushao Wen
Резюме на русском
## Контекст
В последние годы многоязычные выборки данных становятся важной частью прогресса в области машинного перевода. Однако существуют проблемы в создании и использовании таких корпусов. Например, корпуса, построенные на основе документов Организации Объединенных Наций (ООН), часто имеют закрытый процесс построения и сложность в повторении результатов. Более того, многие такие корпуса ограничиваются малыми масштабами. Для решения этих проблем мы предлагаем UPRPRC - полностью открытый и полностью репродуцируемый метод для построения корпусов параллельных данных из документов ООН. Метод покрывает все этапы, от сбора данных через веб-скрейпинг до текстового выравнивания. Этот подход значительно увеличивает масштаб и качество данных, обеспечивает прозрачность процесса и повышает демократический доступ к ресурсам для исследований в машинном переводе.
## Метод
Мы предлагаем UPRPRC как унифицированный процесс, который включает в себя следующие этапы:
1. **Сбор данных**: Мы используем веб-скрейпинг для извлечения документов из официальных источников ООН. Это позволяет собирать большие объемы данных с открытым доступом.
2. **Выделение и препроцессинг**: Мы разделяем документы на отдельные параграфы и применяем методы для очистки и нормализации текста.
3. **Граф-поaдающий выравнивание (GAPA)**: Новая методика для выравнивания параграфов на основе графов позволяет обнаруживать пары параграфов, которые являются переводами друг друга. Наша техника учитывает лексические, синтаксические и контекстуальные связи между параграфами.
4. **Масштабируемость**: Мы предлагаем распределенные решения, чтобы обрабатывать большие данные, но также предоставляем минималистичную версию для работы на одном компьютере.
В результате мы получили корпус, содержащий 713 миллионов токенов в английском языке, что значительно превышает существующие параллельные корпуса.
## Результаты
Мы провести несколько экспериментов, используя наш корпус, выявив значительные выгоды от использования GAPA. Для сравнения мы провели эксперименты с другими методами выравнивания, такими как базовый алгоритм гармонического среднего и предыдущие подходы. Наши результаты показали, что GAPA значительно повышает точность выравнивания параграфов, особенно для текстов, которые имеют сложные синтаксические и контекстуальные отношения. Мы также проверили наш корпус на нескольких моделях машинного перевода и обнаружили, что использование нашего корпуса повышает качество перевода, в том числе для низкоресурсных языков.
## Значи
Abstract
The quality and accessibility of multilingual datasets are crucial for
advancing machine translation. However, previous corpora built from United
Nations documents have suffered from issues such as opaque process, difficulty
of reproduction, and limited scale. To address these challenges, we introduce a
complete end-to-end solution, from data acquisition via web scraping to text
alignment. The entire process is fully reproducible, with a minimalist
single-machine example and optional distributed computing steps for
scalability. At its core, we propose a new Graph-Aided Paragraph Alignment
(GAPA) algorithm for efficient and flexible paragraph-level alignment. The
resulting corpus contains over 713 million English tokens, more than doubling
the scale of prior work. To the best of our knowledge, this represents the
largest publicly available parallel corpus composed entirely of
human-translated, non-AI-generated content. Our code and corpus are accessible
under the MIT License.
Ссылки и действия
Дополнительные ресурсы: