CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset

2509.14161v1 cs.CL, cs.SD, eess.AS 2025-09-19

Авторы:

Brian Yan, Injy Hamed, Shuichiro Shimizu, Vasista Lodagala, William Chen, Olga Iakovenko, Bashar Talafha, Amir Hussein, Alexander Polok, Kalvin Chang, Dominik Klement, Sara Althubaiti, Puyuan Peng, Matthew Wiesner, Thamar Solorio, Ahmed Ali, Sanjeev Khudanpur, Shinji Watanabe, Chih-Chen Chen, Zhen Wu, Karim Benharrak, Anuj Diwan, Samuele Cornell, Eunjung Yeo, Kwanghee Choi, Carlos Carvalho, Karen Rosero

Резюме на русском

## Контекст В статье представляется CS-FLEURS, большой многоязычный датасет для развития и оценки систем распознавания и перевода кодоподменных речи вне высокоресурсных языков. Эту область исследования недостаточно изучали, несмотря на ее важность для многоязычности и межкультурного общения. Существующие датасеты либо ограничены определенными языками, либо не подходят для тренировки и оценки систем. Для оптимального использования ML-алгоритмов необходимы масштабные и широко представительные датасеты, чтобы улучшить распознавание и перевод кодоподменных речи. ## Метод CS-FLEURS состоит из 4 тестовых наборов, охватывающих 113 уникальных кодоподменных пар языков в 52 языках. 1) Реальные голоса читают синтетически сгенерированные кодоподменные предложения (14 пар языков). 2) Generative text-to-speech (16 пар языков). 3) 60 пар языков (например, арабский, мандаринский, хинди, испанский с X-языком) с generative text-to-speech. 4) 45 низкоресурсных пар языков с конкатенативным text-to-speech. Датасет также включает 128 часов данных для обучения с генерируемым text-to-speech. Методы включают глубокое обучение и методы распознавания речи. ## Результаты Датасет CS-FLEURS использован для экспериментов с различными моделями распознавания речи. Оценка проводилась на 4 тестовых наборах. Результаты показали, что модели, обученные на этом датасете, показали высокую точность в распознавании и переводе кодоподменных речи, даже в низкоресурсных языках. Это позволяет улучшить технологии, способствующие межкультурному общению и многоязычности. ## Значимость CS-FLEURS может применяться в развитии многоязычных систем распознавания и перевода речи, в том числе для низкоресурсных языков. Он помогает улучшить доступность технологий для межкультурного общения, расширяя представительность в машинном обучении. Это способствует развитию инновационных решений в области глобального коммуникационного пространства. ## Выводы CS-FLEURS — самый крупный многоязычный датасет, расширяющий возможности исследования кодоподменных речи. Он подтверждает важность масштабированных датасетов для развития технологий. Будущие исследования будут ориентированы на улучшение моделей и расширение датасетов для более широкого диапазона языков и условий.

Abstract

We present CS-FLEURS, a new dataset for developing and evaluating code-switched speech recognition and translation systems beyond high-resourced languages. CS-FLEURS consists of 4 test sets which cover in total 113 unique code-switched language pairs across 52 languages: 1) a 14 X-English language pair set with real voices reading synthetically generated code-switched sentences, 2) a 16 X-English language pair set with generative text-to-speech 3) a 60 {Arabic, Mandarin, Hindi, Spanish}-X language pair set with the generative text-to-speech, and 4) a 45 X-English lower-resourced language pair test set with concatenative text-to-speech. Besides the four test sets, CS-FLEURS also provides a training set with 128 hours of generative text-to-speech data across 16 X-English language pairs. Our hope is that CS-FLEURS helps to broaden the scope of future code-switched speech research. Dataset link: https://huggingface.co/datasets/byan/cs-fleurs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация