UniCoM: A Universal Code-Switching Speech Generator
2508.15244v1
cs.CL, cs.SD, eess.AS
2025-08-23
Авторы:
Sangmin Lee, Woojin Chung, Seyun Um, Hong-Goo Kang
Резюме на русском
## Контекст
Code-switching (CS), т. е. переключение между двумя или более языками в одном высказывании одного и того же говорящего, широко распространено в реальных ситуациях общения. Однако этот эффект является значительным трудностью для развития многоязычных технологий распознавания речи и трансляции. Несмотря на важность этой проблемы, относительно небольшое количество исследований посвящено ей, в основном из-за существующего дефицита качественных данных. Для решения этой проблемы предлагается Universal Code-Mixer (UniCoM) — метод для создания высококачественных примеров CS-речи, сохраняющих смысловую нагрузку предложений.
## Метод
UniCoM основывается на методе Substituting WORDs with Synonyms (SWORDS), который генерирует CS-текст путем подстановки выбранных слов синонимами-переводами, учитывая их части речи. Это позволяет создавать примеры CS-речи, которые сохраняют оригинальную смысловую нагрузку. Кроме того, мы используем UniCoM для построения многоязычного CS-корпуса Code-Switching FLEURS (CS-FLEURS), ориентированного на целевые задачи ASR и S2TT. Этот корпус включает в себя CS-примеры для нескольких языковых пар, разделенных на тренировочные, валидационные и тестовые наборы.
## Результаты
Experimental evaluation представляет собой сравнение CS-FLEURS с другими CS-данными и стандартными датасетовыми на ASR и S2TT. Результаты показывают, что CS-FLEURS демонстрирует высокую intelligibility и naturalness, при этом аналогично или даже лучше остальных датасетов по этим показателям. Это подтверждает, что UniCoM эффективно решает задачу генерации CS-речи, сохраняя смысловую нагрузку и предоставляя качественные данные для обучения моделей.
## Значимость
UniCoM может быть применен для создания CS-данных, необходимых для обучения моделей ASR и S2TT, что в свою очередь может повысить качество технологий распознавания речи и трансляции в многоязычной среде. Этот подход имеет значимый потенциал для улучшения multilingual speech technology, устранения языковых барьеров и повышения доступности многоязычных систем для различных групп пользователей.
## Выводы
UniCoM представляет собой первоначальный шаг к созданию универсального CS-генератора речи. Он эффективно решает проблему отсутствия качественных датасетов для CS-речи, создавая примеры, которые сохраняют смысловую нагрузку. В будущем планируется расширить UniCoM на более широкий спектр языковых пар и сценариев, а также использовать его для улучшения многоязычных систем ASR и S2TT.
Abstract
Code-switching (CS), the alternation between two or more languages within a
single speaker's utterances, is common in real-world conversations and poses
significant challenges for multilingual speech technology. However, systems
capable of handling this phenomenon remain underexplored, primarily due to the
scarcity of suitable datasets. To resolve this issue, we propose Universal
Code-Mixer (UniCoM), a novel pipeline for generating high-quality, natural CS
samples without altering sentence semantics. Our approach utilizes an algorithm
we call Substituting WORDs with Synonyms (SWORDS), which generates CS speech by
replacing selected words with their translations while considering their parts
of speech. Using UniCoM, we construct Code-Switching FLEURS (CS-FLEURS), a
multilingual CS corpus designed for automatic speech recognition (ASR) and
speech-to-text translation (S2TT). Experimental results show that CS-FLEURS
achieves high intelligibility and naturalness, performing comparably to
existing datasets on both objective and subjective metrics. We expect our
approach to advance CS speech technology and enable more inclusive multilingual
systems.
Ссылки и действия
Дополнительные ресурсы: