SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System
2508.02268v1
cs.CL
2025-08-09
Авторы:
Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
Резюме на русском
Языковой спектр Арабских государств характеризуется острой проблемой диглоссии: развитие носителя Модерн Стандартная Арабская (MSA), применяемого в официальной сфере, в сильное семантическое расхождение от региональных диалектов, широко распространенных в повседневной речи. Это ставит перед NLP-сообществом задачу решения проблемы машинного перевода между MSA и диалектами. В статье представлена разработка **SHAMI-MT**, бибидирекционная система перевода между MSA и сирийским диалектом (Shami). Используя архитектуру AraT5v2-base-1024, были разработаны два модели для перевода MSA->Shami и Shami->MSA. Эти модели были обучены на Nabra dataset и тестированы на невиденных данных MADAR corpus. Модель MSA->Shami достигла высокой оценки **4.01 из 5.0** по OpenAI GPT-4.1, показывая свою силу в поддержании носителя и локализации контента. Это решение открывает новые возможности в локализации, хранении культурного наследия и расширении межкультурного общения в регионе.
Abstract
The rich linguistic landscape of the Arab world is characterized by a
significant gap between Modern Standard Arabic (MSA), the language of formal
communication, and the diverse regional dialects used in everyday life. This
diglossia presents a formidable challenge for natural language processing,
particularly machine translation. This paper introduces \textbf{SHAMI-MT}, a
bidirectional machine translation system specifically engineered to bridge the
communication gap between MSA and the Syrian dialect. We present two
specialized models, one for MSA-to-Shami and another for Shami-to-MSA
translation, both built upon the state-of-the-art AraT5v2-base-1024
architecture. The models were fine-tuned on the comprehensive Nabra dataset and
rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami
model achieved an outstanding average quality score of \textbf{4.01 out of 5.0}
when judged by OPENAI model GPT-4.1, demonstrating its ability to produce
translations that are not only accurate but also dialectally authentic. This
work provides a crucial, high-fidelity tool for a previously underserved
language pair, advancing the field of dialectal Arabic translation and offering
significant applications in content localization, cultural heritage, and
intercultural communication.
Ссылки и действия
Дополнительные ресурсы: