UniCoM: A Universal Code-Switching Speech Generator

2508.15244v1 cs.CL, cs.SD, eess.AS 2025-08-23

Авторы:

Sangmin Lee, Woojin Chung, Seyun Um, Hong-Goo Kang

Резюме на русском

## Контекст Code-switching (CS), т. е. переключение между двумя или более языками в одном высказывании одного и того же говорящего, широко распространено в реальных ситуациях общения. Однако этот эффект является значительным трудностью для развития многоязычных технологий распознавания речи и трансляции. Несмотря на важность этой проблемы, относительно небольшое количество исследований посвящено ей, в основном из-за существующего дефицита качественных данных. Для решения этой проблемы предлагается Universal Code-Mixer (UniCoM) — метод для создания высококачественных примеров CS-речи, сохраняющих смысловую нагрузку предложений. ## Метод UniCoM основывается на методе Substituting WORDs with Synonyms (SWORDS), который генерирует CS-текст путем подстановки выбранных слов синонимами-переводами, учитывая их части речи. Это позволяет создавать примеры CS-речи, которые сохраняют оригинальную смысловую нагрузку. Кроме того, мы используем UniCoM для построения многоязычного CS-корпуса Code-Switching FLEURS (CS-FLEURS), ориентированного на целевые задачи ASR и S2TT. Этот корпус включает в себя CS-примеры для нескольких языковых пар, разделенных на тренировочные, валидационные и тестовые наборы. ## Результаты Experimental evaluation представляет собой сравнение CS-FLEURS с другими CS-данными и стандартными датасетовыми на ASR и S2TT. Результаты показывают, что CS-FLEURS демонстрирует высокую intelligibility и naturalness, при этом аналогично или даже лучше остальных датасетов по этим показателям. Это подтверждает, что UniCoM эффективно решает задачу генерации CS-речи, сохраняя смысловую нагрузку и предоставляя качественные данные для обучения моделей. ## Значимость UniCoM может быть применен для создания CS-данных, необходимых для обучения моделей ASR и S2TT, что в свою очередь может повысить качество технологий распознавания речи и трансляции в многоязычной среде. Этот подход имеет значимый потенциал для улучшения multilingual speech technology, устранения языковых барьеров и повышения доступности многоязычных систем для различных групп пользователей. ## Выводы UniCoM представляет собой первоначальный шаг к созданию универсального CS-генератора речи. Он эффективно решает проблему отсутствия качественных датасетов для CS-речи, создавая примеры, которые сохраняют смысловую нагрузку. В будущем планируется расширить UniCoM на более широкий спектр языковых пар и сценариев, а также использовать его для улучшения многоязычных систем ASR и S2TT.

Abstract

Code-switching (CS), the alternation between two or more languages within a single speaker's utterances, is common in real-world conversations and poses significant challenges for multilingual speech technology. However, systems capable of handling this phenomenon remain underexplored, primarily due to the scarcity of suitable datasets. To resolve this issue, we propose Universal Code-Mixer (UniCoM), a novel pipeline for generating high-quality, natural CS samples without altering sentence semantics. Our approach utilizes an algorithm we call Substituting WORDs with Synonyms (SWORDS), which generates CS speech by replacing selected words with their translations while considering their parts of speech. Using UniCoM, we construct Code-Switching FLEURS (CS-FLEURS), a multilingual CS corpus designed for automatic speech recognition (ASR) and speech-to-text translation (S2TT). Experimental results show that CS-FLEURS achieves high intelligibility and naturalness, performing comparably to existing datasets on both objective and subjective metrics. We expect our approach to advance CS speech technology and enable more inclusive multilingual systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

UniCoM: A Universal Code-Switching Speech Generator

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация