NADI 2025: The First Multidialectal Arabic Speech Processing Shared Task

2509.02038v2 cs.CL, cs.SD 2025-09-05

Авторы:

Bashar Talafha, Hawau Olamide Toyin, Peter Sullivan, AbdelRahim Elmadany, Abdurrahman Juma, Amirbek Djanibekov, Chiyu Zhang, Hamad Alshehhi, Hanan Aldarmaki, Mustafa Jarrar, Nizar Habash, Muhammad Abdul-Mageed

Резюме на русском

## Контекст Арабский язык широко изучается в сфере естественных языков, однако решение проблем связанных с процессингом науичной статьи на русском языке, языков с многоязычным использованием. Наиболее ранние работы посвящались только одному аспекту, такому как лексико-грамматическое содержание или морфологическое разборность. Однако последние исследования показывают, что эффективность обработки текста сильно зависит от языкового и географического контекста. Особенно трудности возникают при обработке речи в разных диалектах арабского языка, которые отличаются сильно друг от друга по лёгкости идентификации и преобразованию. ## Метод В этом решении используется многоступенчатая модель, включающая в себя три основных задачи: лидеринг контекста, где используется метод оптимального подбора, который позволяет увеличить значимость результатов. Метод основывается на нарушении работы речи, включая обработку диалектов, на стадии классификации и отделения звуков. Архитектура модели основана на распознавании входных данных, с последующим преобразованием их в нужные форматы. Для обработки сложностей, связанных с тремя отдельными задачами, были применены разные инструменты, включая машинное обучение и глубокое обучение. ## Результаты В ходе экспериментов применялись различные данные, включая голосовые аудиозаписи, произносимые на разных диалектах арабского языка. Были получены результаты, показывающие 79,8% точности в идентификации диалекта, 35,68/12,20 WER/CER в автоматическом распознавании речи, и 55/13 WER/CER в диакритическом восстановлении. Эти показатели показывают, что хотя системы достигли некоторых успехов, они всё ещё сталкиваются с значительными трудностями в работе с арабскими диалектами. ## Значимость Результаты могут быть использованы в разных областях, включая лексикографию, морфологию, и анализ речи. Этот подход может помочь улучшить общее понимание языковых и разговорных особенностей арабского языка. Однако, несмотря на достигнутый прогресс, существуют ещё многочисленные проблемы, которые требуют будущих исследований, в том числе улучшение точности распознавания речи и восстановления диакритических знаков. ## Выводы На основе исследований, проведённых в рамках NADI 2025, были достигнуты научные прогрессы в области распознавания диалектов и восстановления диакритических знаков. Однако, необходимо продолжительное исследования и развития моделей, чтобы достичь более точного и эффективного обработки голос

Abstract

We present the findings of the sixth Nuanced Arabic Dialect Identification (NADI 2025) Shared Task, which focused on Arabic speech dialect processing across three subtasks: spoken dialect identification (Subtask 1), speech recognition (Subtask 2), and diacritic restoration for spoken dialects (Subtask 3). A total of 44 teams registered, and during the testing phase, 100 valid submissions were received from eight unique teams. The distribution was as follows: 34 submissions for Subtask 1 "five teams{\ae}, 47 submissions for Subtask 2 "six teams", and 19 submissions for Subtask 3 "two teams". The best-performing systems achieved 79.8% accuracy on Subtask 1, 35.68/12.20 WER/CER (overall average) on Subtask 2, and 55/13 WER/CER on Subtask 3. These results highlight the ongoing challenges of Arabic dialect speech processing, particularly in dialect identification, recognition, and diacritic restoration. We also summarize the methods adopted by participating teams and briefly outline directions for future editions of NADI.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

NADI 2025: The First Multidialectal Arabic Speech Processing Shared Task

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dialect Identification Using Resource-Efficient Fine-Tuning Approaches

A new kid on the block: Distributional semantics predicts the word-specific tone...

CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokk...

POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Tex...

CantoASR: Prosody-Aware ASR-LALM Collaboration for Low-Resource Cantonese

Навигация