SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models
2509.14270v1
cs.CL, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS, I.2.7
2025-09-20
Авторы:
Karan Dua, Puneet Mittal, Ranjeet Gupta, Hitesh Laxmichand Patel
Резюме на русском
#### Контекст
Тренировка высококачественных Text-to-Speech (TTS) моделей требует обширных и разнообразных наборов текстовых и звуковых данных. Однако приобретение таких данных из реальных источников становится сложной задачей из-за проблем, таких как доменная специфичность, лицензирование и масштабируемость. Большие языковые модели (LLMs) могут генерировать текстовые данные, однако часто создают повторяющийся текст с недостаточной разнообразностью во входных запросах. Другой важный аспект в TTS-тренировке — это нормализация текста. Инструменты нормализации могут вводить аномалии или пропускать ценные шаблоны, что влияет на качество данных. Большие масштабы синтезированных речевых данных становятся недоступными без использования голоса артистов для рекординга, что становится выгодным для только определенных моделей TTS. Для решения этих проблем мы предлагаем SpeechWeave — современный подход к генерированию синтетических данных для подготовки моделей TTS.
#### Метод
SpeechWeave — это современная многоязычная система генерирования синтетических текстов и аудио, разработанная для эффективной подготовки моделей TTS. Методология использует генеративные модели LLMs, специально настроенные для создания разнообразных текстов и звуковых сигналов. Основные этапы методики включают: 1) генерацию текста с учетом языковой и доменной специфики; 2) добавление разнообразия в текст с помощью процедур нормализации и синтеза; 3) генерацию аудио с помощью автоматизированных синтезирующих моделей. SpeechWeave сочетает в себе технологии нормализации текста и генерации синтетического звука, обеспечивая высококачественные и разнообразные данные для тренировки моделей TTS.
#### Результаты
В экспериментах был использован набор данных с различными языками и доменами. SpeechWeave сгенерировал текстовые и аудио данные, показав разнообразие от 10% до 48% по метрикам языковой разнообразности и графемо-фоноемисования. Обнаружено, что нормализация текста достигла 97% точности, с минимальным количеством аномалий. Также, синтетические аудио данные были генерированы с высоким уровнем согласованности в речевых характеристиках, что важно для улучшения качества моделей TTS. Эти результаты иллюстрируют мощь SpeechWeave в создании производительных и качественных синтетических данных для TTS.
#### Значимость
SpeechWeave может применяться в различных сферах, включая образовательные ресурсы, коммерческие системы TTS и лингвистические исследования. Основные преимущества — это увеличение разнообразия в текстовых и аудио данных, нормализация
Abstract
High-quality Text-to-Speech (TTS) model training requires extensive and
diverse text and speech data. It is challenging to procure such data from real
sources due to issues of domain specificity, licensing, and scalability. Large
language models (LLMs) can certainly generate textual data, but they create
repetitive text with insufficient variation in the prompt during the generation
process. Another important aspect in TTS training data is text normalization.
Tools for normalization might occasionally introduce anomalies or overlook
valuable patterns, and thus impact data quality. Furthermore, it is also
impractical to rely on voice artists for large scale speech recording in
commercial TTS systems with standardized voices. To address these challenges,
we propose SpeechWeave, a synthetic speech data generation pipeline that is
capable of automating the generation of multilingual, domain-specific datasets
for training TTS models. Our experiments reveal that our pipeline generates
data that is 10-48% more diverse than the baseline across various linguistic
and phonetic metrics, along with speaker-standardized speech audio while
generating approximately 97% correctly normalized text. Our approach enables
scalable, high-quality data generation for TTS training, improving diversity,
normalization, and voice consistency in the generated datasets.