Audio Super-Resolution with Latent Bridge Models
2509.17609v1
cs.SD, cs.LG
2025-09-24
Авторы:
Chang Li, Zehua Chen, Liyuan Wang, Jun Zhu
Резюме на русском
## Контекст
Аудио супер-резолюция (SR) — процесс увеличения частоты выборки звукового сигнала — широко применяется в поле post-production audio. Однако существующие методы часто страдают от недостаточной качественности результатов из-за отсутствия эффективных генерируемых моделей. В настоящем исследовании предлагается новая модель, использующая latent bridge models (LBMs), для решения этой проблемы. LBMs позволяют создавать качественный upsampling звуковых сигналов, используя предварительную информацию LR-сигнала. Также предлагается расширение LBMs для обучения модели, которая может обеспечивать seamless upsampling до 192 kHz. Это модернизированное решение призвано повысить качество звуковой post-production, включая speech, audio и music.
## Метод
Предложенная модель LBMs представляет звуковые сигналы в continuous latent space, что позволяет уменьшить размерность и ускорить обучение. Для обеспечения high-quality upsampling, LBMs используют latent-to-latent generation process, который естественно соответствует LR-to-HR upsampling. Для повышения качества обучения при ограниченном объеме HR-выборок, предлагается расширение Frequency-Aware LBMs, где LR- и HR-frequency используются в качестве входных данных для модели. Для достижения более высокого качества и увеличения гибкости для audio post-production, представлены cascaded LBMs и два новых prior augmentation strategy, которые позволяют выполнять upsampling до 48 kHz и выше.
## Результаты
Использовались данные из benchmark datasets VCTK, ESC-50 и Song-Describer, а также двух внутренних наборов данных. Оценочные результаты показали, что LBMs достигают state-of-the-art quality в upsampling звуковых сигналов для any-to-48 kHz SR во всех типах звуковых сигналов — speech, audio и music. Достигнут первый рекорд в upsampling до 192 kHz. Перспективные результаты подтверждают эффективность новой модели в audio post-production.
## Значимость
Логический следствием данного исследования является широкое применение LBMs в audio post-production, включая upsampling звуковых сигналов в audio editing, music production и speech enhancing. Новая модель обеспечивает высокое качество результатов, что может улучшить звуковые операции в multimedia production. Более высокий скоростной резолюционный range, достигнутый с помощью LBMs, открывает новые возможности для audio upsampling в профессиональных приложениях.
## Выводы
Предложенная модель LBMs демонстрирует state-of-the-art качество в audio SR и предлагает новые возможности для seamless upsampling до 192 kHz. Будущие исследования будут сфокусированы на расширении применений LBMs в других областях audio signal processing, таких как real-time audio processing и adaptive upsampling.
Abstract
Audio super-resolution (SR), i.e., upsampling the low-resolution (LR)
waveform to the high-resolution (HR) version, has recently been explored with
diffusion and bridge models, while previous methods often suffer from
sub-optimal upsampling quality due to their uninformative generation prior.
Towards high-quality audio super-resolution, we present a new system with
latent bridge models (LBMs), where we compress the audio waveform into a
continuous latent space and design an LBM to enable a latent-to-latent
generation process that naturally matches the LR-toHR upsampling process,
thereby fully exploiting the instructive prior information contained in the LR
waveform. To further enhance the training results despite the limited
availability of HR samples, we introduce frequency-aware LBMs, where the prior
and target frequency are taken as model input, enabling LBMs to explicitly
learn an any-to-any upsampling process at the training stage. Furthermore, we
design cascaded LBMs and present two prior augmentation strategies, where we
make the first attempt to unlock the audio upsampling beyond 48 kHz and empower
a seamless cascaded SR process, providing higher flexibility for audio
post-production. Comprehensive experimental results evaluated on the VCTK,
ESC-50, Song-Describer benchmark datasets and two internal testsets demonstrate
that we achieve state-of-the-art objective and perceptual quality for
any-to-48kHz SR across speech, audio, and music signals, as well as setting the
first record for any-to-192kHz audio SR. Demo at https://AudioLBM.github.io/.
Ссылки и действия
Дополнительные ресурсы: