Building and Aligning Comparable Corpora
2508.02555v1
cs.CL, I.2.7
2025-08-09
Авторы:
Motaz Saad, David Langlois, Kamel Smaili
Резюме на русском
**Резюме**
В статье предлагается метод создания и выравнивания сходных корпусов (comparable corpora) для многоязычных задач NLP, когда параллельные тексты отсутствуют. Авторы собрали сходные документы из Википедии и EURONEWS в английском, французском и арабском языках, а затем использовали кросс-языковые меры сходства для их выравнивания. Особое внимание уделено двум подходам: основанному на билингвальном словаре и Latent Semantic Indexing (LSI). Исследования показали, что LSI-мера демонстрирует лучший результат в сравнении с билингвальным словарем.
Кроме того, авторы собрали и анализировали документы из BBC и Al Jazeera, использовав CL-LSI для автоматического выравнивания документов по темам и событиям. Эксперименты подтвердили, что CL-LSI эффективно выравнивает документы как на тематическом, так и на событийном уровне. Эти результаты показывают, что CL-LSI является эффективным инструментом для сбора и выравнивания сходных корпусов, даже при ограниченном доступе к параллельным текстам.
Abstract
Comparable corpus is a set of topic aligned documents in multiple languages,
which are not necessarily translations of each other. These documents are
useful for multilingual natural language processing when there is no parallel
text available in some domains or languages. In addition, comparable documents
are informative because they can tell what is being said about a topic in
different languages. In this paper, we present a method to build comparable
corpora from Wikipedia encyclopedia and EURONEWS website in English, French and
Arabic languages. We further experiment a method to automatically align
comparable documents using cross-lingual similarity measures. We investigate
two cross-lingual similarity measures to align comparable documents. The first
measure is based on bilingual dictionary, and the second measure is based on
Latent Semantic Indexing (LSI). Experiments on several corpora show that the
Cross-Lingual LSI (CL-LSI) measure outperforms the dictionary based measure.
Finally, we collect English and Arabic news documents from the British
Broadcast Corporation (BBC) and from ALJAZEERA (JSC) news website respectively.
Then we use the CL-LSI similarity measure to automatically align comparable
documents of BBC and JSC. The evaluation of the alignment shows that CL-LSI is
not only able to align cross-lingual documents at the topic level, but also it
is able to do this at the event level.
Ссылки и действия
Дополнительные ресурсы: