Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech
2508.09430v1
cs.CL, cs.SD
2025-08-15
Авторы:
Lavanya Shankar, Leibny Paola Garcia Perera
Резюме на русском
## Контекст
Код-свитчинг и языковая идентификация в сценариях речевого взаимодействия с детьми представляют серьезные затруднения, особенно в билингвальных средах. Эти проблемы усиливаются в ситуациях, когда речь содержит две неравнозначные языки, такие как мандаринский и английский. Такие ситуации характерны для речевых взаимодействий с детьми, где родители или опекуны часто переключаются между языками. Это затрудняет автоматизированную систему распознавания языка, так как требуется высокая точность для правильной идентификации языка. Наша мотивация заключается в использовании модели Zipformer для улучшения языковой идентификации в таких сценариях. Мы исследуем внутренние слои модели, которые эффективно кодируют языковые черты, и исследуем их практическое применение в реальных условиях.
## Метод
Мы использовали модель Zipformer, разработанную специально для задач распознавания языка. Модель обладает трансформерской архитектурой, которая позволяет эффективно обрабатывать потоки речи. Мы использовали внутренние слои модели для извлечения эмбеддингов, которые содержат характеристики языка. Для сравнения мы использовали другие модели и бэкенды для оценки точности. Наша цель заключалась в оптимизации выбора внутренних слоев Zipformer для точного извлечения эмбеддингов, которые могут быть использованы в языковой идентификации.
## Результаты
Мы провели эксперименты с реальными данными, содержащими два неравнозначных языка, мандаринский и английский. Мы измерили производительность Zipformer по сравнению с другими моделями на метриках Balanced Accuracy (BAC) и F1-меры. Эксперименты показали, что Zipformer превосходит другие модели, достигнув BAC 81.89%, что является улучшением на 15.47% по сравнению с базовым алгоритмом. Эти результаты демонстрируют высокую точность и устойчивость модели в условиях неравномерного распределения данных.
## Значимость
Наши результаты имеют значительное значение в области языковой идентификации, особенно в сценариях с код-свитчингом. Модель Zipformer может быть применена в системах распознавания речи, транскрибировании речи и анализе речевых данных. Она предоставляет достоверные результаты для языков с неравномерным распределением, что делает ее полезной в реальных условиях, например, в обучении детей и в технологиях поддержки детского развития. Этот подход также может быть расширен на другие языки и сценарии с код-свитчингом.
## Выводы
Мы демонстрируем, что Zipformer является эффективным инструментом для языковой идентификации в код-свитчинговых сценариях, о
Abstract
Code-switching and language identification in child-directed scenarios
present significant challenges, particularly in bilingual environments. This
paper addresses this challenge by using Zipformer to handle the nuances of
speech, which contains two imbalanced languages, Mandarin and English, in an
utterance. This work demonstrates that the internal layers of the Zipformer
effectively encode the language characteristics, which can be leveraged in
language identification. We present the selection methodology of the inner
layers to extract the embeddings and make a comparison with different
back-ends. Our analysis shows that Zipformer is robust across these backends.
Our approach effectively handles imbalanced data, achieving a Balanced Accuracy
(BAC) of 81.89%, a 15.47% improvement over the language identification
baseline. These findings highlight the potential of the transformer encoder
architecture model in real scenarios.
Ссылки и действия
Дополнительные ресурсы: