Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning

2508.08912v1 cs.CL, cs.AI 2025-08-14
Авторы:

Mahmoud Salhab, Shameed Sait, Mohammad Abusheikh, Hasan Abusheikh

Резюме на русском

#### Контекст Автоматическое распознавание речи (ASR) является ключевым компонентом для создания эффективного взаимодействия между человеком и машиной в таких областях, как виртуальные помощники, промышленная автоматизация, поддержка клиентов и реальное время транскрипции. Однако, для низкоресурсных языков, таких как арабский, развитие точных систем ASR представляет серьезные трудности из-за недостатка меток данных и сложности, возникающих из разнообразия диалектов. Для арабского языка, отличающегося разнообразием диалектов, эта сложность возрастает. В данной работе мы предлагаем метод построения ASR-систем, который объединяет методы неполностью отмеченного обучения с последующим тонко tuning-ом с моделью. Этот подход позволяет обеспечить высокую точность распознавания, даже при ограниченном количестве данных. #### Метод Мы предлагаем подход, сочетающий неполностью отмеченное обучение с последующим тонко tuning-ом. На первом этапе, система обучается на 15 000 часов неполностью отмеченных звуковых данных, включающих как Modern Standard Arabic (MSA), так и различные диалекты арабского языка. На втором этапе проводится тонкое tuning на смеси неполностью отмеченных данных и небольшого количества высококачественных данных с метками. Эта методика позволяет эффективно использовать малое количество высококачественных данных, улучшая производительность ASR-системы. Мы также используем архитектуру Transformer-based ASR, которая подходит для обработки различных диалектов, включая те, которые не были видны во время предварительного обучения. #### Результаты Для оценки эффективности нашего подхода, мы приняли участие в соревновании NADI 2025 Shared Task 2, посвященном развитию ASR для многодиалектного арабского языка. Модель показала лучшие результаты, победив в трех из трех подзадач. Это демонстрирует силу тонкого tuning-а на неполностью отмеченных данных, что позволяет достичь высокой точности даже при ограниченных ресурсах. Мы также проводили дополнительные эксперименты для проверки качества на различных диалектах, что дало дополнительную поддержку нашей модели. #### Значимость Наш подход имеет значительное значение в области развития ASR для низкоресурсных языков, особенно для арабских диалектов. Он доказывает, что неполностью отмеченные данные могут быть эффективно использованы для обучения моделей, даже для языков с богатым диалектическим разнообразием. Это открывает новые возможности для развития ASR-систем в других низкоресурсных языках, где доступ к метким данным ограничен. Мы также отмечаем, что наш подход может быть применен для поддержки ре

Abstract

Automatic speech recognition (ASR) plays a vital role in enabling natural human-machine interaction across applications such as virtual assistants, industrial automation, customer support, and real-time transcription. However, developing accurate ASR systems for low-resource languages like Arabic remains a significant challenge due to limited labeled data and the linguistic complexity introduced by diverse dialects. In this work, we present a scalable training pipeline that combines weakly supervised learning with supervised fine-tuning to develop a robust Arabic ASR model. In the first stage, we pretrain the model on 15,000 hours of weakly labeled speech covering both Modern Standard Arabic (MSA) and various Dialectal Arabic (DA) variants. In the subsequent stage, we perform continual supervised fine-tuning using a mixture of filtered weakly labeled data and a small, high-quality annotated dataset. Our approach achieves state-of-the-art results, ranking first in the multi-dialectal Arabic ASR challenge. These findings highlight the effectiveness of weak supervision paired with fine-tuning in overcoming data scarcity and delivering high-quality ASR for low-resource, dialect-rich languages.

Ссылки и действия