Geolocation-Aware Robust Spoken Language Identification

2508.17148v1 cs.CL, cs.SD 2025-08-27

Авторы:

Qingzheng Wang, Hye-jin Shim, Jiancheng Sun, Shinji Watanabe

Резюме на русском

#### Контекст Распознавание речи (Spoken Language Identification, LID) является ключевым заданием в области звукового обработки и машинного обучения. Оно используется в различных приложениях, таких как системы управления пользователем, локализация языка в мультиязычных средах и транскрипция речи. Несмотря на неоцениваемые достижения, достигнутые с помощью Self-Supervised Learning (SSL), существующие модели LID часто сталкиваются с проблемами в распознавании языковых вариаций, таких как диалекты и акценты. Эти проблемы возникают из-за того, что многие модели не учитывают географические особенности языка, что приводит к неустойчивости в распознавании. Мотивация для данного исследования заключается в создании модели, которая будет более устойчивой к таким вариациям и более точно классифицировать речи, независимо от диалекта или акцента. #### Метод Методология, предложенная в данной работе, включает в себя geolocation-aware LID -- новую подходящую модель, которая интегрирует информацию о геопозиции языка в процесс обучения. Мы предлагаем использовать ауксиллярное задание по прогнозированию геолокации. Данные, полученные с помощью этого задания, инъектируются в средние представления модели в качестве условияльных сигналов. Это позволяет модели не только извлекать особенности слов и фоновых шумов, но также учитывать распределение речи по географическим регионам. Это улучшает универсальность модели, так как она может более эффективно обрабатывать различные диалекты и акценты в рамках одного языка. #### Результаты Модель была проверена на шести мультиязычных датасетах. Она показала значительные улучшения в отношении устойчивости к различным вариациям речи внутри одного языка. На датасете FLEURS, модель достигла долей точности 97.7%, что является рекордным показателем. На датасете ML-SUPERB 2.0, относительное улучшение составило 9.7% в распознавании диалектов. Эти результаты подтверждают эффективность условительных сигналов, внедренных с помощью прогноза геолокации. #### Значимость Geolocation-aware LID может быть применена в различных областях, таких как локализация речи в мультиязычных средах, мониторинг речи в социальных сетях и в системах перевода. Ее преимущество заключается в том, что она может распознавать речь независимо от диалекта или акцента, что увеличивает доступность и точность в различных сценариях. Этот подход также может положительно влиять на развитие технологий, которые требуют точного распознавания речи, такие как системы управления пользователем и системы локализации языка. #### Выводы Данная работа представляет собой значительный шаг в нап

Abstract

While Self-supervised Learning (SSL) has significantly improved Spoken Language Identification (LID), existing models often struggle to consistently classify dialects and accents of the same language as a unified class. To address this challenge, we propose geolocation-aware LID, a novel approach that incorporates language-level geolocation information into the SSL-based LID model. Specifically, we introduce geolocation prediction as an auxiliary task and inject the predicted vectors into intermediate representations as conditioning signals. This explicit conditioning encourages the model to learn more unified representations for dialectal and accented variations. Experiments across six multilingual datasets demonstrate that our approach improves robustness to intra-language variations and unseen domains, achieving new state-of-the-art accuracy on FLEURS (97.7%) and 9.7% relative improvement on ML-SUPERB 2.0 dialect set.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Geolocation-Aware Robust Spoken Language Identification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dialect Identification Using Resource-Efficient Fine-Tuning Approaches

A new kid on the block: Distributional semantics predicts the word-specific tone...

CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokk...

POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Tex...

CantoASR: Prosody-Aware ASR-LALM Collaboration for Low-Resource Cantonese

Навигация