Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech

2508.09430v1 cs.CL, cs.SD 2025-08-15

Авторы:

Lavanya Shankar, Leibny Paola Garcia Perera

Резюме на русском

## Контекст Код-свитчинг и языковая идентификация в сценариях речевого взаимодействия с детьми представляют серьезные затруднения, особенно в билингвальных средах. Эти проблемы усиливаются в ситуациях, когда речь содержит две неравнозначные языки, такие как мандаринский и английский. Такие ситуации характерны для речевых взаимодействий с детьми, где родители или опекуны часто переключаются между языками. Это затрудняет автоматизированную систему распознавания языка, так как требуется высокая точность для правильной идентификации языка. Наша мотивация заключается в использовании модели Zipformer для улучшения языковой идентификации в таких сценариях. Мы исследуем внутренние слои модели, которые эффективно кодируют языковые черты, и исследуем их практическое применение в реальных условиях. ## Метод Мы использовали модель Zipformer, разработанную специально для задач распознавания языка. Модель обладает трансформерской архитектурой, которая позволяет эффективно обрабатывать потоки речи. Мы использовали внутренние слои модели для извлечения эмбеддингов, которые содержат характеристики языка. Для сравнения мы использовали другие модели и бэкенды для оценки точности. Наша цель заключалась в оптимизации выбора внутренних слоев Zipformer для точного извлечения эмбеддингов, которые могут быть использованы в языковой идентификации. ## Результаты Мы провели эксперименты с реальными данными, содержащими два неравнозначных языка, мандаринский и английский. Мы измерили производительность Zipformer по сравнению с другими моделями на метриках Balanced Accuracy (BAC) и F1-меры. Эксперименты показали, что Zipformer превосходит другие модели, достигнув BAC 81.89%, что является улучшением на 15.47% по сравнению с базовым алгоритмом. Эти результаты демонстрируют высокую точность и устойчивость модели в условиях неравномерного распределения данных. ## Значимость Наши результаты имеют значительное значение в области языковой идентификации, особенно в сценариях с код-свитчингом. Модель Zipformer может быть применена в системах распознавания речи, транскрибировании речи и анализе речевых данных. Она предоставляет достоверные результаты для языков с неравномерным распределением, что делает ее полезной в реальных условиях, например, в обучении детей и в технологиях поддержки детского развития. Этот подход также может быть расширен на другие языки и сценарии с код-свитчингом. ## Выводы Мы демонстрируем, что Zipformer является эффективным инструментом для языковой идентификации в код-свитчинговых сценариях, о

Abstract

Code-switching and language identification in child-directed scenarios present significant challenges, particularly in bilingual environments. This paper addresses this challenge by using Zipformer to handle the nuances of speech, which contains two imbalanced languages, Mandarin and English, in an utterance. This work demonstrates that the internal layers of the Zipformer effectively encode the language characteristics, which can be leveraged in language identification. We present the selection methodology of the inner layers to extract the embeddings and make a comparison with different back-ends. Our analysis shows that Zipformer is robust across these backends. Our approach effectively handles imbalanced data, achieving a Balanced Accuracy (BAC) of 81.89%, a 15.47% improvement over the language identification baseline. These findings highlight the potential of the transformer encoder architecture model in real scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dialect Identification Using Resource-Efficient Fine-Tuning Approaches

A new kid on the block: Distributional semantics predicts the word-specific tone...

CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokk...

POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Tex...

CantoASR: Prosody-Aware ASR-LALM Collaboration for Low-Resource Cantonese

Навигация