Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning
2508.08912v1
cs.CL, cs.AI
2025-08-14
Авторы:
Mahmoud Salhab, Shameed Sait, Mohammad Abusheikh, Hasan Abusheikh
Резюме на русском
#### Контекст
Автоматическое распознавание речи (ASR) является ключевым компонентом для создания эффективного взаимодействия между человеком и машиной в таких областях, как виртуальные помощники, промышленная автоматизация, поддержка клиентов и реальное время транскрипции. Однако, для низкоресурсных языков, таких как арабский, развитие точных систем ASR представляет серьезные трудности из-за недостатка меток данных и сложности, возникающих из разнообразия диалектов. Для арабского языка, отличающегося разнообразием диалектов, эта сложность возрастает. В данной работе мы предлагаем метод построения ASR-систем, который объединяет методы неполностью отмеченного обучения с последующим тонко tuning-ом с моделью. Этот подход позволяет обеспечить высокую точность распознавания, даже при ограниченном количестве данных.
#### Метод
Мы предлагаем подход, сочетающий неполностью отмеченное обучение с последующим тонко tuning-ом. На первом этапе, система обучается на 15 000 часов неполностью отмеченных звуковых данных, включающих как Modern Standard Arabic (MSA), так и различные диалекты арабского языка. На втором этапе проводится тонкое tuning на смеси неполностью отмеченных данных и небольшого количества высококачественных данных с метками. Эта методика позволяет эффективно использовать малое количество высококачественных данных, улучшая производительность ASR-системы. Мы также используем архитектуру Transformer-based ASR, которая подходит для обработки различных диалектов, включая те, которые не были видны во время предварительного обучения.
#### Результаты
Для оценки эффективности нашего подхода, мы приняли участие в соревновании NADI 2025 Shared Task 2, посвященном развитию ASR для многодиалектного арабского языка. Модель показала лучшие результаты, победив в трех из трех подзадач. Это демонстрирует силу тонкого tuning-а на неполностью отмеченных данных, что позволяет достичь высокой точности даже при ограниченных ресурсах. Мы также проводили дополнительные эксперименты для проверки качества на различных диалектах, что дало дополнительную поддержку нашей модели.
#### Значимость
Наш подход имеет значительное значение в области развития ASR для низкоресурсных языков, особенно для арабских диалектов. Он доказывает, что неполностью отмеченные данные могут быть эффективно использованы для обучения моделей, даже для языков с богатым диалектическим разнообразием. Это открывает новые возможности для развития ASR-систем в других низкоресурсных языках, где доступ к метким данным ограничен. Мы также отмечаем, что наш подход может быть применен для поддержки ре
Abstract
Automatic speech recognition (ASR) plays a vital role in enabling natural
human-machine interaction across applications such as virtual assistants,
industrial automation, customer support, and real-time transcription. However,
developing accurate ASR systems for low-resource languages like Arabic remains
a significant challenge due to limited labeled data and the linguistic
complexity introduced by diverse dialects. In this work, we present a scalable
training pipeline that combines weakly supervised learning with supervised
fine-tuning to develop a robust Arabic ASR model. In the first stage, we
pretrain the model on 15,000 hours of weakly labeled speech covering both
Modern Standard Arabic (MSA) and various Dialectal Arabic (DA) variants. In the
subsequent stage, we perform continual supervised fine-tuning using a mixture
of filtered weakly labeled data and a small, high-quality annotated dataset.
Our approach achieves state-of-the-art results, ranking first in the
multi-dialectal Arabic ASR challenge. These findings highlight the
effectiveness of weak supervision paired with fine-tuning in overcoming data
scarcity and delivering high-quality ASR for low-resource, dialect-rich
languages.
Ссылки и действия
Дополнительные ресурсы: