Авторы:
Brian Yan, Injy Hamed, Shuichiro Shimizu, Vasista Lodagala, William Chen, Olga Iakovenko, Bashar Talafha, Amir Hussein, Alexander Polok, Kalvin Chang, Dominik Klement, Sara Althubaiti, Puyuan Peng, Matthew Wiesner, Thamar Solorio, Ahmed Ali, Sanjeev Khudanpur, Shinji Watanabe, Chih-Chen Chen, Zhen Wu, Karim Benharrak, Anuj Diwan, Samuele Cornell, Eunjung Yeo, Kwanghee Choi, Carlos Carvalho, Karen Rosero
## Контекст
В статье представляется CS-FLEURS, большой многоязычный датасет для развития и оценки систем распознавания и перевода кодоподменных речи вне высокоресурсных языков. Эту область исследования недостаточно изучали, несмотря на ее важность для многоязычности и межкультурного общения. Существующие датасеты либо ограничены определенными языками, либо не подходят для тренировки и оценки систем. Для оптимального использования ML-алгоритмов необходимы масштабные и широко представительные датасеты, чтобы улучшить распознавание и перевод кодоподменных речи.
## Метод
CS-FLEURS состоит из 4 тестовых наборов, охватывающих 113 уникальных кодоподменных пар языков в 52 языках. 1) Реальные голоса читают синтетически сгенерированные кодоподменные предложения (14 пар языков). 2) Generative text-to-speech (16 пар языков). 3) 60 пар языков (например, арабский, мандаринский, хинди, испанский с X-языком) с generative text-to-speech. 4) 45 низкоресурсных пар языков с конкатенативным text-to-speech. Датасет также включает 128 часов данных для обучения с генерируемым text-to-speech. Методы включают глубокое обучение и методы распознавания речи.
## Результаты
Датасет CS-FLEURS использован для экспериментов с различными моделями распознавания речи. Оценка проводилась на 4 тестовых наборах. Результаты показали, что модели, обученные на этом датасете, показали высокую точность в распознавании и переводе кодоподменных речи, даже в низкоресурсных языках. Это позволяет улучшить технологии, способствующие межкультурному общению и многоязычности.
## Значимость
CS-FLEURS может применяться в развитии многоязычных систем распознавания и перевода речи, в том числе для низкоресурсных языков. Он помогает улучшить доступность технологий для межкультурного общения, расширяя представительность в машинном обучении. Это способствует развитию инновационных решений в области глобального коммуникационного пространства.
## Выводы
CS-FLEURS — самый крупный многоязычный датасет, расширяющий возможности исследования кодоподменных речи. Он подтверждает важность масштабированных датасетов для развития технологий. Будущие исследования будут ориентированы на улучшение моделей и расширение датасетов для более широкого диапазона языков и условий.
Annotation:
We present CS-FLEURS, a new dataset for developing and evaluating
code-switched speech recognition and translation systems beyond high-resourced
languages. CS-FLEURS consists of 4 test sets which cover in total 113 unique
code-switched language pairs across 52 languages: 1) a 14 X-English language
pair set with real voices reading synthetically generated code-switched
sentences, 2) a 16 X-English language pair set with generative text-to-speech
3) a 60 {Arabic, Mandarin, Hindi, Spanish}-X langua...
ID: 2509.14161v1
cs.CL, cs.SD, eess.AS