📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models

2025-09-20

Авторы:

Karan Dua, Puneet Mittal, Ranjeet Gupta, Hitesh Laxmichand Patel

#### Контекст Тренировка высококачественных Text-to-Speech (TTS) моделей требует обширных и разнообразных наборов текстовых и звуковых данных. Однако приобретение таких данных из реальных источников становится сложной задачей из-за проблем, таких как доменная специфичность, лицензирование и масштабируемость. Большие языковые модели (LLMs) могут генерировать текстовые данные, однако часто создают повторяющийся текст с недостаточной разнообразностью во входных запросах. Другой важный аспект в TTS-тренировке — это нормализация текста. Инструменты нормализации могут вводить аномалии или пропускать ценные шаблоны, что влияет на качество данных. Большие масштабы синтезированных речевых данных становятся недоступными без использования голоса артистов для рекординга, что становится выгодным для только определенных моделей TTS. Для решения этих проблем мы предлагаем SpeechWeave — современный подход к генерированию синтетических данных для подготовки моделей TTS. #### Метод SpeechWeave — это современная многоязычная система генерирования синтетических текстов и аудио, разработанная для эффективной подготовки моделей TTS. Методология использует генеративные модели LLMs, специально настроенные для создания разнообразных текстов и звуковых сигналов. Основные этапы методики включают: 1) генерацию текста с учетом языковой и доменной специфики; 2) добавление разнообразия в текст с помощью процедур нормализации и синтеза; 3) генерацию аудио с помощью автоматизированных синтезирующих моделей. SpeechWeave сочетает в себе технологии нормализации текста и генерации синтетического звука, обеспечивая высококачественные и разнообразные данные для тренировки моделей TTS. #### Результаты В экспериментах был использован набор данных с различными языками и доменами. SpeechWeave сгенерировал текстовые и аудио данные, показав разнообразие от 10% до 48% по метрикам языковой разнообразности и графемо-фоноемисования. Обнаружено, что нормализация текста достигла 97% точности, с минимальным количеством аномалий. Также, синтетические аудио данные были генерированы с высоким уровнем согласованности в речевых характеристиках, что важно для улучшения качества моделей TTS. Эти результаты иллюстрируют мощь SpeechWeave в создании производительных и качественных синтетических данных для TTS. #### Значимость SpeechWeave может применяться в различных сферах, включая образовательные ресурсы, коммерческие системы TTS и лингвистические исследования. Основные преимущества — это увеличение разнообразия в текстовых и аудио данных, нормализация

Annotation:

High-quality Text-to-Speech (TTS) model training requires extensive and diverse text and speech data. It is challenging to procure such data from real sources due to issues of domain specificity, licensing, and scalability. Large language models (LLMs) can certainly generate textual data, but they create repetitive text with insufficient variation in the prompt during the generation process. Another important aspect in TTS training data is text normalization. Tools for normalization might occasi...

ID: 2509.14270v1 cs.CL, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS, I.2.7

arXiv PDF

📄 LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

2025-08-23

Авторы:

Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen

## Контекст Развитие больших спеech-language моделей (LSLMs) сталкивается с рядом проблем, включая разрозненные архитектуры, непрозрачность процесса обучения и невозможность повторного воспроизведения результатов. Эти проблемы затрудняют сравнение и репликацию исследований в этой области. В отличие от визуально-языковых моделей, в сфере speech-language широко распространена практика выпуска моделей с неполными данными обучения и непрозрачными конфигурациями. Для устранения этих проблем мы предлагаем LLaSO — первый полностью открытый и полностью доступный фреймворк для моделирования speech-language на большом масштабе. LLaSO предоставляет сообществу три ключевые ресурса: 1) LLaSO-Align — 12 миллионов записях спеech-text alignment; 2) LLaSO-Instruct — 13.5 миллионов записей для многозадачного тренирования; и 3) LLaSO-Eval — реплицируемый бенчмарк для стандартной оценки моделей. ## Метод Мы разработали LLaSO как полностью открытый фреймворк, который включает в себя следующие этапы: (1) Создание и открытие LLaSO-Align — крупномасштабного корпуса спеech-text alignment, покрывающего различные регионы и акценты. (2) Создание и открытие LLaSO-Instruct — многозадачного датасета для тренировки моделей на основе инструкций. (3) Разработка LLaSO-Eval — создание реплицируемого и прозрачного метода оценки моделей. Для подтверждения эффективности, мы выпустили LLaSO-Base — модель с 3.8 миллиардами параметров, обученную исключительно на открытых данных. ## Результаты Мы провести эксперименты, в ходе которых проанализировали различные аспекты LLaSO-Base. Модель была протестирована на нескольких задачах, включая потоковое распознавание речи, транскрипцию и синтез речи. Мы получили нормализованный результат 0.72, набираясь перед подобными моделями в своем классе. Наши результаты показали, что широкое покрытие обучения модели повышает ее общеуниверсальную производительность, но в случае с чисто аудиовыводом существуют существенные проблемы с generalization. Это открывает путь для последующих исследований в области достижения более высокой универсальности. ## Значимость LLaSO предлагает несколько значимых приложений: 1) Использование в научных исследованиях для построения более открытых и реплицируемых моделей. 2) Улучшение практик открытого образования в AI. 3) Продвижение совместных усилий в развитии новых алгоритмов. 4) Ускорение прогресса в решении задач многоязычного транскриптирования и распознавания речи. Этот фреймворк позволяет сообществу создавать и анализировать модели с более высокой прозрачностью и доступностью, что делает его ключевым инструментом для продвижения научных исследо

Annotation:

The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language m...

ID: 2508.15418v1 cs.CL, cs.AI, cs.LG, cs.MM, cs.SD

arXiv PDF