📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Karan Dua, Puneet Mittal, Ranjeet Gupta, Hitesh Laxmichand Patel
#### Контекст
Тренировка высококачественных Text-to-Speech (TTS) моделей требует обширных и разнообразных наборов текстовых и звуковых данных. Однако приобретение таких данных из реальных источников становится сложной задачей из-за проблем, таких как доменная специфичность, лицензирование и масштабируемость. Большие языковые модели (LLMs) могут генерировать текстовые данные, однако часто создают повторяющийся текст с недостаточной разнообразностью во входных запросах. Другой важный аспект в TTS-тренировке — это нормализация текста. Инструменты нормализации могут вводить аномалии или пропускать ценные шаблоны, что влияет на качество данных. Большие масштабы синтезированных речевых данных становятся недоступными без использования голоса артистов для рекординга, что становится выгодным для только определенных моделей TTS. Для решения этих проблем мы предлагаем SpeechWeave — современный подход к генерированию синтетических данных для подготовки моделей TTS.
#### Метод
SpeechWeave — это современная многоязычная система генерирования синтетических текстов и аудио, разработанная для эффективной подготовки моделей TTS. Методология использует генеративные модели LLMs, специально настроенные для создания разнообразных текстов и звуковых сигналов. Основные этапы методики включают: 1) генерацию текста с учетом языковой и доменной специфики; 2) добавление разнообразия в текст с помощью процедур нормализации и синтеза; 3) генерацию аудио с помощью автоматизированных синтезирующих моделей. SpeechWeave сочетает в себе технологии нормализации текста и генерации синтетического звука, обеспечивая высококачественные и разнообразные данные для тренировки моделей TTS.
#### Результаты
В экспериментах был использован набор данных с различными языками и доменами. SpeechWeave сгенерировал текстовые и аудио данные, показав разнообразие от 10% до 48% по метрикам языковой разнообразности и графемо-фоноемисования. Обнаружено, что нормализация текста достигла 97% точности, с минимальным количеством аномалий. Также, синтетические аудио данные были генерированы с высоким уровнем согласованности в речевых характеристиках, что важно для улучшения качества моделей TTS. Эти результаты иллюстрируют мощь SpeechWeave в создании производительных и качественных синтетических данных для TTS.
#### Значимость
SpeechWeave может применяться в различных сферах, включая образовательные ресурсы, коммерческие системы TTS и лингвистические исследования. Основные преимущества — это увеличение разнообразия в текстовых и аудио данных, нормализация
Annotation:
High-quality Text-to-Speech (TTS) model training requires extensive and
diverse text and speech data. It is challenging to procure such data from real
sources due to issues of domain specificity, licensing, and scalability. Large
language models (LLMs) can certainly generate textual data, but they create
repetitive text with insufficient variation in the prompt during the generation
process. Another important aspect in TTS training data is text normalization.
Tools for normalization might occasi...