SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models

2509.14270v1 cs.CL, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS, I.2.7 2025-09-20

Авторы:

Karan Dua, Puneet Mittal, Ranjeet Gupta, Hitesh Laxmichand Patel

Резюме на русском

#### Контекст Тренировка высококачественных Text-to-Speech (TTS) моделей требует обширных и разнообразных наборов текстовых и звуковых данных. Однако приобретение таких данных из реальных источников становится сложной задачей из-за проблем, таких как доменная специфичность, лицензирование и масштабируемость. Большие языковые модели (LLMs) могут генерировать текстовые данные, однако часто создают повторяющийся текст с недостаточной разнообразностью во входных запросах. Другой важный аспект в TTS-тренировке — это нормализация текста. Инструменты нормализации могут вводить аномалии или пропускать ценные шаблоны, что влияет на качество данных. Большие масштабы синтезированных речевых данных становятся недоступными без использования голоса артистов для рекординга, что становится выгодным для только определенных моделей TTS. Для решения этих проблем мы предлагаем SpeechWeave — современный подход к генерированию синтетических данных для подготовки моделей TTS. #### Метод SpeechWeave — это современная многоязычная система генерирования синтетических текстов и аудио, разработанная для эффективной подготовки моделей TTS. Методология использует генеративные модели LLMs, специально настроенные для создания разнообразных текстов и звуковых сигналов. Основные этапы методики включают: 1) генерацию текста с учетом языковой и доменной специфики; 2) добавление разнообразия в текст с помощью процедур нормализации и синтеза; 3) генерацию аудио с помощью автоматизированных синтезирующих моделей. SpeechWeave сочетает в себе технологии нормализации текста и генерации синтетического звука, обеспечивая высококачественные и разнообразные данные для тренировки моделей TTS. #### Результаты В экспериментах был использован набор данных с различными языками и доменами. SpeechWeave сгенерировал текстовые и аудио данные, показав разнообразие от 10% до 48% по метрикам языковой разнообразности и графемо-фоноемисования. Обнаружено, что нормализация текста достигла 97% точности, с минимальным количеством аномалий. Также, синтетические аудио данные были генерированы с высоким уровнем согласованности в речевых характеристиках, что важно для улучшения качества моделей TTS. Эти результаты иллюстрируют мощь SpeechWeave в создании производительных и качественных синтетических данных для TTS. #### Значимость SpeechWeave может применяться в различных сферах, включая образовательные ресурсы, коммерческие системы TTS и лингвистические исследования. Основные преимущества — это увеличение разнообразия в текстовых и аудио данных, нормализация

Abstract

High-quality Text-to-Speech (TTS) model training requires extensive and diverse text and speech data. It is challenging to procure such data from real sources due to issues of domain specificity, licensing, and scalability. Large language models (LLMs) can certainly generate textual data, but they create repetitive text with insufficient variation in the prompt during the generation process. Another important aspect in TTS training data is text normalization. Tools for normalization might occasionally introduce anomalies or overlook valuable patterns, and thus impact data quality. Furthermore, it is also impractical to rely on voice artists for large scale speech recording in commercial TTS systems with standardized voices. To address these challenges, we propose SpeechWeave, a synthetic speech data generation pipeline that is capable of automating the generation of multilingual, domain-specific datasets for training TTS models. Our experiments reveal that our pipeline generates data that is 10-48% more diverse than the baseline across various linguistic and phonetic metrics, along with speaker-standardized speech audio while generating approximately 97% correctly normalized text. Our approach enables scalable, high-quality data generation for TTS training, improving diversity, normalization, and voice consistency in the generated datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация