Real-Time Streaming Mel Vocoding with Generative Flow Matching
2509.15085v1
eess.AS, cs.LG, cs.SD, eess.SP
2025-09-20
Авторы:
Simon Welker, Tal Peer, Timo Gerkmann
Резюме на русском
## Контекст
Метод Mel vocoding, или восстановление аудиогруппы из Mel-магнитудного спектрограммы, является важной задачей в развитии систем текстовой речи (TTS). Несмотря на то, что существуют существующие подходы, такие как HiFi-GAN, они не подходят для реального времени из-за высокой обработки данных. Эта проблема особенно актуальна для текстовой речи, где необходимы короткие временные задержки (latency) для обеспечения естественного звучания. Наша работа нацелена на разработку модели, которая не только воспроизводит звук с высокой скоростью, но и обладает низкой задержкой для реального времени, чтобы создать естественный и качественный голос.
## Метод
Мы предлагаем MelFlow, модель, основанную на технологии generative flow matching, которая работает в режиме потоковой передачи и обеспечивает значительно более низкую задержку. Модель использует алгоритм DiffPhase для восстановления фазовой информации и псевдоинверсную операцию Mel filterbank для Mel-магнитудного спектрограммы. Это позволяет достичь низкой задержки в 32 мс с обработкой 16 кГц. Мы строим нашу модель на основе глубоких нейронных сетей, используя архитектуру генеративных сетей, которая может обрабатывать аудио с меньшей задержкой в реальном времени.
## Результаты
Мы проводили эксперименты с различными данными, включая реальное аудио, и сравнили результаты с другими моделями. Наши результаты показали, что MelFlow не только достигает низкой задержки, но и показывает значительно лучшие результаты по метрикам PESQ и SI-SDR по сравнению с HiFi-GAN и другими моделями. Эти результаты подтверждают эффективность нашей модели в реальном времени и её высокое качество аудиовоспроизведения.
## Значимость
Мы видим широкие возможности применения MelFlow в различных областях, включая текстовую речь и синтез голоса, где требуется высокая скорость и качество. Наша модель может применяться в системах TTS, виртуальных помощниках и играх. Основное преимущество заключается в низкой задержке и высоком качестве звука, что делает её более эффективной по сравнению с доступными альтернативами. Мы считаем, что наш подход может повлиять на развитие технологий голосового синтеза и естественного аудио-процессинга.
## Выводы
Мы разработали MelFlow, модель, которая не только обеспечивает реальное время, но и показывает высокое качество звука. В дальнейшем, мы планируем расширить функциональность модели и провести дополнительные эксперименты для повышения её точности и скорости. Мы также планируем применить её в различных приложениях, чтобы продемонстрировать её практическую значимость и потенциал в текстовой речи и синтезе голоса.
Abstract
The task of Mel vocoding, i.e., the inversion of a Mel magnitude spectrogram
to an audio waveform, is still a key component in many text-to-speech (TTS)
systems today. Based on generative flow matching, our prior work on generative
STFT phase retrieval (DiffPhase), and the pseudoinverse operator of the Mel
filterbank, we develop MelFlow, a streaming-capable generative Mel vocoder for
speech sampled at 16 kHz with an algorithmic latency of only 32 ms and a total
latency of 48 ms. We show real-time streaming capability at this latency not
only in theory, but in practice on a consumer laptop GPU. Furthermore, we show
that our model achieves substantially better PESQ and SI-SDR values compared to
well-established not streaming-capable baselines for Mel vocoding including
HiFi-GAN.