Inference-time Scaling for Diffusion-based Audio Super-resolution

2508.02391v1 cs.SD, cs.AI, eess.AS 2025-08-09
Авторы:

Yizhu Jin, Zhen Ye, Zeyue Tian, Haohe Liu, Qiuqiang Kong, Yike Guo, Wei Xue

Резюме на русском

Задача улучшения аудиокачества через суперрезолюцию широко применяется в музыке, голосовых синтезаторах и постпродакшене. Однако существующие методы, основанные на моделях шума-диффузии, сталкиваются с ограничениями, связанными с хаотичностью стохастического процесса семплирования. Наша работа предлагает новый подход к решению этой проблемы, основанный на парадигме **inference-time scaling**. Вместо увеличения количества семплирований, мы используем множество поисковых алгоритмов и задачи-источники проверки (verifiers) для эффективного исследования высокомерного пространства решений. Это позволяет нам направлять семплирование в наиболее выгодные направления, повышая качество результатов. Мы провели широкие эксперименты, подтверждающие повышение качества аудио в области речи, музыки и звуковых эффектов, с улучшениями до 9.70% в красоте, 5.88% в согласованности голоса и 46.98% в метрике спектрального расстояния при увеличении частоты за счет 4 кГц до 24 кГц. Это демонстрирует эффективность нашего подхода в решении задачи суперрезолюции аудиоданных.

Abstract

Diffusion models have demonstrated remarkable success in generative tasks, including audio super-resolution (SR). In many applications like movie post-production and album mastering, substantial computational budgets are available for achieving superior audio quality. However, while existing diffusion approaches typically increase sampling steps to improve quality, the performance remains fundamentally limited by the stochastic nature of the sampling process, leading to high-variance and quality-limited outputs. Here, rather than simply increasing the number of sampling steps, we propose a different paradigm through inference-time scaling for SR, which explores multiple solution trajectories during the sampling process. Different task-specific verifiers are developed, and two search algorithms, including the random search and zero-order search for SR, are introduced. By actively guiding the exploration of the high-dimensional solution space through verifier-algorithm combinations, we enable more robust and higher-quality outputs. Through extensive validation across diverse audio domains (speech, music, sound effects) and frequency ranges, we demonstrate consistent performance gains, achieving improvements of up to 9.70% in aesthetics, 5.88% in speaker similarity, 15.20% in word error rate, and 46.98% in spectral distance for speech SR from 4kHz to 24kHz, showcasing the effectiveness of our approach. Audio samples are available at: https://racerk.github.io/tt-scale-audiosr/.

Ссылки и действия