MeanFlowSE: one-step generative speech enhancement via conditional mean flow
2509.14858v1
cs.SD, cs.AI
2025-09-20
Авторы:
Duojia Li, Shenghui Lu, Hongchen Pan, Zongyi Zhan, Qingyang Hong, Lin Li
Резюме на русском
## Контекст
В последние годы становится все более актуальным развитие алгоритмов для улучшения звука в реальном времени. Одним из ключевых задач в этой области является сглаживание шума в речевых сигналах, чтобы обеспечить понятность и качество звука. Существующие подходы, основанные на потоках и диффузии, требуют многократного расчета многошаговых обыкновенных дифференциальных уравнений (ODE), что не позволяет их применять в реальном времени. Эта проблема является ограничением для применения подобных моделей в приложениях, требующих немедленного результата, таких как видеокоммуникация и автоматическая синтезированная речь. Данная работа фокусируется на создании модели, которая способна решать эту задачу в одном шаге, устраняя необходимость в многошаговой инференции.
## Метод
Методология, предложенная в работе, основывается на подходе, который называется **MeanFlowSE**. Эта модель учится определять среднюю величину потока по временным интервалам, что позволяет выполнять упрощенный генерирующий процесс. Метод использует **Jacobian-vector product (JVP)** для моделирования данного подхода. Архитектура модели разработана таким образом, чтобы она могла делать одношаговый генерирующий процесс, убрав необходимость в многошаговой инференции. Эта модель также включает возможность дополнительного рефинейма с помощью нескольких шагов, если это необходимо. Основной мотивацией здесь является уменьшение затрат за счет устранения многошаговых вычислений.
## Результаты
Исследователи проверили свою модель на стандартном тестовом датасете **VoiceBank-DEMAND**. Одиночно-шаговая модель **MeanFlowSE** показала высокую точность, понятность и качество в результатах звукового улучшения. Она также показала значительно нижую вычислительную сложность по сравнению с многошаговыми базовыми моделями. Дополнительно, возможность дополнительного рефинейма с помощью нескольких шагов дала улучшение качества в некоторых сценариях. Этот подход демонстрирует значительную эффективность и может быть использован для реального времени обработки звука.
## Значимость
Метод **MeanFlowSE** может быть применен в различных областях, таких как звукозапись, мультимедиа и телекоммуникации. Он предлагает значительное улучшение в скорости работы и качестве результата по сравнению с традиционными многошаговыми подходами. Данный подход также позволяет избежать сложностей, связанных с использованием внешних моделей или киданием весов, что делает его более универсальным. С его помощью можно создавать модели, которые могут использоваться в реальных условиях, без необходимости выполнять многократные расчеты.
## Вы
Abstract
Multistep inference is a bottleneck for real-time generative speech
enhancement because flow- and diffusion-based systems learn an instantaneous
velocity field and therefore rely on iterative ordinary differential equation
(ODE) solvers. We introduce MeanFlowSE, a conditional generative model that
learns the average velocity over finite intervals along a trajectory. Using a
Jacobian-vector product (JVP) to instantiate the MeanFlow identity, we derive a
local training objective that directly supervises finite-interval displacement
while remaining consistent with the instantaneous-field constraint on the
diagonal. At inference, MeanFlowSE performs single-step generation via a
backward-in-time displacement, removing the need for multistep solvers; an
optional few-step variant offers additional refinement. On VoiceBank-DEMAND,
the single-step model achieves strong intelligibility, fidelity, and perceptual
quality with substantially lower computational cost than multistep baselines.
The method requires no knowledge distillation or external teachers, providing
an efficient, high-fidelity framework for real-time generative speech
enhancement.
Ссылки и действия
Дополнительные ресурсы: