MeanFlowSE: one-step generative speech enhancement via conditional mean flow

2509.14858v1 cs.SD, cs.AI 2025-09-20
Авторы:

Duojia Li, Shenghui Lu, Hongchen Pan, Zongyi Zhan, Qingyang Hong, Lin Li

Резюме на русском

## Контекст В последние годы становится все более актуальным развитие алгоритмов для улучшения звука в реальном времени. Одним из ключевых задач в этой области является сглаживание шума в речевых сигналах, чтобы обеспечить понятность и качество звука. Существующие подходы, основанные на потоках и диффузии, требуют многократного расчета многошаговых обыкновенных дифференциальных уравнений (ODE), что не позволяет их применять в реальном времени. Эта проблема является ограничением для применения подобных моделей в приложениях, требующих немедленного результата, таких как видеокоммуникация и автоматическая синтезированная речь. Данная работа фокусируется на создании модели, которая способна решать эту задачу в одном шаге, устраняя необходимость в многошаговой инференции. ## Метод Методология, предложенная в работе, основывается на подходе, который называется **MeanFlowSE**. Эта модель учится определять среднюю величину потока по временным интервалам, что позволяет выполнять упрощенный генерирующий процесс. Метод использует **Jacobian-vector product (JVP)** для моделирования данного подхода. Архитектура модели разработана таким образом, чтобы она могла делать одношаговый генерирующий процесс, убрав необходимость в многошаговой инференции. Эта модель также включает возможность дополнительного рефинейма с помощью нескольких шагов, если это необходимо. Основной мотивацией здесь является уменьшение затрат за счет устранения многошаговых вычислений. ## Результаты Исследователи проверили свою модель на стандартном тестовом датасете **VoiceBank-DEMAND**. Одиночно-шаговая модель **MeanFlowSE** показала высокую точность, понятность и качество в результатах звукового улучшения. Она также показала значительно нижую вычислительную сложность по сравнению с многошаговыми базовыми моделями. Дополнительно, возможность дополнительного рефинейма с помощью нескольких шагов дала улучшение качества в некоторых сценариях. Этот подход демонстрирует значительную эффективность и может быть использован для реального времени обработки звука. ## Значимость Метод **MeanFlowSE** может быть применен в различных областях, таких как звукозапись, мультимедиа и телекоммуникации. Он предлагает значительное улучшение в скорости работы и качестве результата по сравнению с традиционными многошаговыми подходами. Данный подход также позволяет избежать сложностей, связанных с использованием внешних моделей или киданием весов, что делает его более универсальным. С его помощью можно создавать модели, которые могут использоваться в реальных условиях, без необходимости выполнять многократные расчеты. ## Вы

Abstract

Multistep inference is a bottleneck for real-time generative speech enhancement because flow- and diffusion-based systems learn an instantaneous velocity field and therefore rely on iterative ordinary differential equation (ODE) solvers. We introduce MeanFlowSE, a conditional generative model that learns the average velocity over finite intervals along a trajectory. Using a Jacobian-vector product (JVP) to instantiate the MeanFlow identity, we derive a local training objective that directly supervises finite-interval displacement while remaining consistent with the instantaneous-field constraint on the diagonal. At inference, MeanFlowSE performs single-step generation via a backward-in-time displacement, removing the need for multistep solvers; an optional few-step variant offers additional refinement. On VoiceBank-DEMAND, the single-step model achieves strong intelligibility, fidelity, and perceptual quality with substantially lower computational cost than multistep baselines. The method requires no knowledge distillation or external teachers, providing an efficient, high-fidelity framework for real-time generative speech enhancement.

Ссылки и действия