Real-Time Streaming Mel Vocoding with Generative Flow Matching

2509.15085v1 eess.AS, cs.LG, cs.SD, eess.SP 2025-09-20
Авторы:

Simon Welker, Tal Peer, Timo Gerkmann

Резюме на русском

## Контекст Метод Mel vocoding, или восстановление аудиогруппы из Mel-магнитудного спектрограммы, является важной задачей в развитии систем текстовой речи (TTS). Несмотря на то, что существуют существующие подходы, такие как HiFi-GAN, они не подходят для реального времени из-за высокой обработки данных. Эта проблема особенно актуальна для текстовой речи, где необходимы короткие временные задержки (latency) для обеспечения естественного звучания. Наша работа нацелена на разработку модели, которая не только воспроизводит звук с высокой скоростью, но и обладает низкой задержкой для реального времени, чтобы создать естественный и качественный голос. ## Метод Мы предлагаем MelFlow, модель, основанную на технологии generative flow matching, которая работает в режиме потоковой передачи и обеспечивает значительно более низкую задержку. Модель использует алгоритм DiffPhase для восстановления фазовой информации и псевдоинверсную операцию Mel filterbank для Mel-магнитудного спектрограммы. Это позволяет достичь низкой задержки в 32 мс с обработкой 16 кГц. Мы строим нашу модель на основе глубоких нейронных сетей, используя архитектуру генеративных сетей, которая может обрабатывать аудио с меньшей задержкой в реальном времени. ## Результаты Мы проводили эксперименты с различными данными, включая реальное аудио, и сравнили результаты с другими моделями. Наши результаты показали, что MelFlow не только достигает низкой задержки, но и показывает значительно лучшие результаты по метрикам PESQ и SI-SDR по сравнению с HiFi-GAN и другими моделями. Эти результаты подтверждают эффективность нашей модели в реальном времени и её высокое качество аудиовоспроизведения. ## Значимость Мы видим широкие возможности применения MelFlow в различных областях, включая текстовую речь и синтез голоса, где требуется высокая скорость и качество. Наша модель может применяться в системах TTS, виртуальных помощниках и играх. Основное преимущество заключается в низкой задержке и высоком качестве звука, что делает её более эффективной по сравнению с доступными альтернативами. Мы считаем, что наш подход может повлиять на развитие технологий голосового синтеза и естественного аудио-процессинга. ## Выводы Мы разработали MelFlow, модель, которая не только обеспечивает реальное время, но и показывает высокое качество звука. В дальнейшем, мы планируем расширить функциональность модели и провести дополнительные эксперименты для повышения её точности и скорости. Мы также планируем применить её в различных приложениях, чтобы продемонстрировать её практическую значимость и потенциал в текстовой речи и синтезе голоса.

Abstract

The task of Mel vocoding, i.e., the inversion of a Mel magnitude spectrogram to an audio waveform, is still a key component in many text-to-speech (TTS) systems today. Based on generative flow matching, our prior work on generative STFT phase retrieval (DiffPhase), and the pseudoinverse operator of the Mel filterbank, we develop MelFlow, a streaming-capable generative Mel vocoder for speech sampled at 16 kHz with an algorithmic latency of only 32 ms and a total latency of 48 ms. We show real-time streaming capability at this latency not only in theory, but in practice on a consumer laptop GPU. Furthermore, we show that our model achieves substantially better PESQ and SI-SDR values compared to well-established not streaming-capable baselines for Mel vocoding including HiFi-GAN.

Ссылки и действия

Связанные статьи

Mitigating data replication in text-to-audio generative diffusion models through...

#### Контекст Генерирующие модели звука, основанные на технологии текст-то-аудио, набирают популярность в сферах, где т...

2025-09-20

Lightweight DNN for Full-Band Speech Denoising on Mobile Devices: Exploiting Lon...

#### Контекст Звуковое очищение (speech denoising, SD) является важной задачей для многих современных сигнальных обрабо...

2025-09-09