#### Контекст
Автоматическое распознавание речи (ASR) является ключевым компонентом для создания эффективного взаимодействия между человеком и машиной в таких областях, как виртуальные помощники, промышленная автоматизация, поддержка клиентов и реальное время транскрипции. Однако, для низкоресурсных языков, таких как арабский, развитие точных систем ASR представляет серьезные трудности из-за недостатка меток данных и сложности, возникающих из разнообразия диалектов. Для арабского языка, отличающегося разнообразием диалектов, эта сложность возрастает. В данной работе мы предлагаем метод построения ASR-систем, который объединяет методы неполностью отмеченного обучения с последующим тонко tuning-ом с моделью. Этот подход позволяет обеспечить высокую точность распознавания, даже при ограниченном количестве данных.
#### Метод
Мы предлагаем подход, сочетающий неполностью отмеченное обучение с последующим тонко tuning-ом. На первом этапе, система обучается на 15 000 часов неполностью отмеченных звуковых данных, включающих как Modern Standard Arabic (MSA), так и различные диалекты арабского языка. На втором этапе проводится тонкое tuning на смеси неполностью отмеченных данных и небольшого количества высококачественных данных с метками. Эта методика позволяет эффективно использовать малое количество высококачественных данных, улучшая производительность ASR-системы. Мы также используем архитектуру Transformer-based ASR, которая подходит для обработки различных диалектов, включая те, которые не были видны во время предварительного обучения.
#### Результаты
Для оценки эффективности нашего подхода, мы приняли участие в соревновании NADI 2025 Shared Task 2, посвященном развитию ASR для многодиалектного арабского языка. Модель показала лучшие результаты, победив в трех из трех подзадач. Это демонстрирует силу тонкого tuning-а на неполностью отмеченных данных, что позволяет достичь высокой точности даже при ограниченных ресурсах. Мы также проводили дополнительные эксперименты для проверки качества на различных диалектах, что дало дополнительную поддержку нашей модели.
#### Значимость
Наш подход имеет значительное значение в области развития ASR для низкоресурсных языков, особенно для арабских диалектов. Он доказывает, что неполностью отмеченные данные могут быть эффективно использованы для обучения моделей, даже для языков с богатым диалектическим разнообразием. Это открывает новые возможности для развития ASR-систем в других низкоресурсных языках, где доступ к метким данным ограничен. Мы также отмечаем, что наш подход может быть применен для поддержки ре