## Контекст
Метод Mel vocoding, или восстановление аудиогруппы из Mel-магнитудного спектрограммы, является важной задачей в развитии систем текстовой речи (TTS). Несмотря на то, что существуют существующие подходы, такие как HiFi-GAN, они не подходят для реального времени из-за высокой обработки данных. Эта проблема особенно актуальна для текстовой речи, где необходимы короткие временные задержки (latency) для обеспечения естественного звучания. Наша работа нацелена на разработку модели, которая не только воспроизводит звук с высокой скоростью, но и обладает низкой задержкой для реального времени, чтобы создать естественный и качественный голос.
## Метод
Мы предлагаем MelFlow, модель, основанную на технологии generative flow matching, которая работает в режиме потоковой передачи и обеспечивает значительно более низкую задержку. Модель использует алгоритм DiffPhase для восстановления фазовой информации и псевдоинверсную операцию Mel filterbank для Mel-магнитудного спектрограммы. Это позволяет достичь низкой задержки в 32 мс с обработкой 16 кГц. Мы строим нашу модель на основе глубоких нейронных сетей, используя архитектуру генеративных сетей, которая может обрабатывать аудио с меньшей задержкой в реальном времени.
## Результаты
Мы проводили эксперименты с различными данными, включая реальное аудио, и сравнили результаты с другими моделями. Наши результаты показали, что MelFlow не только достигает низкой задержки, но и показывает значительно лучшие результаты по метрикам PESQ и SI-SDR по сравнению с HiFi-GAN и другими моделями. Эти результаты подтверждают эффективность нашей модели в реальном времени и её высокое качество аудиовоспроизведения.
## Значимость
Мы видим широкие возможности применения MelFlow в различных областях, включая текстовую речь и синтез голоса, где требуется высокая скорость и качество. Наша модель может применяться в системах TTS, виртуальных помощниках и играх. Основное преимущество заключается в низкой задержке и высоком качестве звука, что делает её более эффективной по сравнению с доступными альтернативами. Мы считаем, что наш подход может повлиять на развитие технологий голосового синтеза и естественного аудио-процессинга.
## Выводы
Мы разработали MelFlow, модель, которая не только обеспечивает реальное время, но и показывает высокое качество звука. В дальнейшем, мы планируем расширить функциональность модели и провести дополнительные эксперименты для повышения её точности и скорости. Мы также планируем применить её в различных приложениях, чтобы продемонстрировать её практическую значимость и потенциал в текстовой речи и синтезе голоса.