Audio Super-Resolution with Latent Bridge Models

2509.17609v1 cs.SD, cs.LG 2025-09-24
Авторы:

Chang Li, Zehua Chen, Liyuan Wang, Jun Zhu

Резюме на русском

## Контекст Аудио супер-резолюция (SR) — процесс увеличения частоты выборки звукового сигнала — широко применяется в поле post-production audio. Однако существующие методы часто страдают от недостаточной качественности результатов из-за отсутствия эффективных генерируемых моделей. В настоящем исследовании предлагается новая модель, использующая latent bridge models (LBMs), для решения этой проблемы. LBMs позволяют создавать качественный upsampling звуковых сигналов, используя предварительную информацию LR-сигнала. Также предлагается расширение LBMs для обучения модели, которая может обеспечивать seamless upsampling до 192 kHz. Это модернизированное решение призвано повысить качество звуковой post-production, включая speech, audio и music. ## Метод Предложенная модель LBMs представляет звуковые сигналы в continuous latent space, что позволяет уменьшить размерность и ускорить обучение. Для обеспечения high-quality upsampling, LBMs используют latent-to-latent generation process, который естественно соответствует LR-to-HR upsampling. Для повышения качества обучения при ограниченном объеме HR-выборок, предлагается расширение Frequency-Aware LBMs, где LR- и HR-frequency используются в качестве входных данных для модели. Для достижения более высокого качества и увеличения гибкости для audio post-production, представлены cascaded LBMs и два новых prior augmentation strategy, которые позволяют выполнять upsampling до 48 kHz и выше. ## Результаты Использовались данные из benchmark datasets VCTK, ESC-50 и Song-Describer, а также двух внутренних наборов данных. Оценочные результаты показали, что LBMs достигают state-of-the-art quality в upsampling звуковых сигналов для any-to-48 kHz SR во всех типах звуковых сигналов — speech, audio и music. Достигнут первый рекорд в upsampling до 192 kHz. Перспективные результаты подтверждают эффективность новой модели в audio post-production. ## Значимость Логический следствием данного исследования является широкое применение LBMs в audio post-production, включая upsampling звуковых сигналов в audio editing, music production и speech enhancing. Новая модель обеспечивает высокое качество результатов, что может улучшить звуковые операции в multimedia production. Более высокий скоростной резолюционный range, достигнутый с помощью LBMs, открывает новые возможности для audio upsampling в профессиональных приложениях. ## Выводы Предложенная модель LBMs демонстрирует state-of-the-art качество в audio SR и предлагает новые возможности для seamless upsampling до 192 kHz. Будущие исследования будут сфокусированы на расширении применений LBMs в других областях audio signal processing, таких как real-time audio processing и adaptive upsampling.

Abstract

Audio super-resolution (SR), i.e., upsampling the low-resolution (LR) waveform to the high-resolution (HR) version, has recently been explored with diffusion and bridge models, while previous methods often suffer from sub-optimal upsampling quality due to their uninformative generation prior. Towards high-quality audio super-resolution, we present a new system with latent bridge models (LBMs), where we compress the audio waveform into a continuous latent space and design an LBM to enable a latent-to-latent generation process that naturally matches the LR-toHR upsampling process, thereby fully exploiting the instructive prior information contained in the LR waveform. To further enhance the training results despite the limited availability of HR samples, we introduce frequency-aware LBMs, where the prior and target frequency are taken as model input, enabling LBMs to explicitly learn an any-to-any upsampling process at the training stage. Furthermore, we design cascaded LBMs and present two prior augmentation strategies, where we make the first attempt to unlock the audio upsampling beyond 48 kHz and empower a seamless cascaded SR process, providing higher flexibility for audio post-production. Comprehensive experimental results evaluated on the VCTK, ESC-50, Song-Describer benchmark datasets and two internal testsets demonstrate that we achieve state-of-the-art objective and perceptual quality for any-to-48kHz SR across speech, audio, and music signals, as well as setting the first record for any-to-192kHz audio SR. Demo at https://AudioLBM.github.io/.

Ссылки и действия