MeanFlowSE: one-step generative speech enhancement via conditional mean flow

2509.14858v2 cs.SD, cs.AI 2025-09-22
Авторы:

Duojia Li, Shenghui Lu, Hongchen Pan, Zongyi Zhan, Qingyang Hong, Lin Li

Резюме на русском

## Контекст Говорение — отражение гуманного опыта и культуры, являясь важной интеллектуальной формой. Однако фоновый шум и другие помехи влияют на звучание говорения, ухудшая качество и четкость. Технологии улучшения говорения, такие как flow- и diffusion-based системы, позволяют улучшить звучание говорения в реальном времени. Однако эти системы зависят от многошаговой интерпретации, что ограничивает их применение в рамках реального времени. Данное исследование фокусируется на разработке единоразовой модели улучшения говорения, которая удалит необходимость в многошаговой обработке. ## Метод Метод, предложенный в работе, назван MeanFlowSE. Он основывается на понятии **conditional mean flow**, которое позволяет учитывать среднюю скорость вдоль малых интервалов на пути траектории. Модель использует **Jacobian-vector product (JVP)** для генерирования локальных движущихся объектов, чтобы выразить конечный дисплей запрошенного сигнала. Для того чтобы максимально сохранить согласование с ограничениями локальной траектории, была разработана **особая локальная целевая функция**. Таким образом, модель не только устраняет необходимость в многошаговой обработке, но и обеспечивает высокое качество улучшения говорения. ## Результаты В экспериментах были проанализированы различные аспекты, такие как говорение, фидлити, интеллектуальность и некоторые другие показатели. Использовались данные из VoiceBank-DEMAND. Была показана высокая эффективность модели MeanFlowSE в реальном времени. Она достигла существенного улучшения говорения, сохранив высокую четкость и низкие затраты вычислительных ресурсов. Особенно выделяется то, что это происходит без использования любого внешнего teacher или методов знания дистилляции. ## Значимость Предложенная модель является примером эффективного и простого в использовании подхода для решения проблем реального времени в области улучшения говорения. Она открывает новые горизонты для применения в системах, требующих сильного улучшения говорения в целях, таких как коммуникация, медицина, а также в области развития голосовых помощников. Благодаря своей простоте и эффективности, MeanFlowSE может значительно улучшить жизнь пользователей, предлагая решение, которое не требует высоких вычислительных мощностей. ## Выводы В итоге, MeanFlowSE продемонстрировала свою эффективность в реальном времени, обеспечив высокое качество улучшения говорения. Будущие исследования будут направлены на улучшение модели, оптимизацию её работы в ненормальных условиях и расширение её применения в различных сферах.

Abstract

Multistep inference is a bottleneck for real-time generative speech enhancement because flow- and diffusion-based systems learn an instantaneous velocity field and therefore rely on iterative ordinary differential equation (ODE) solvers. We introduce MeanFlowSE, a conditional generative model that learns the average velocity over finite intervals along a trajectory. Using a Jacobian-vector product (JVP) to instantiate the MeanFlow identity, we derive a local training objective that directly supervises finite-interval displacement while remaining consistent with the instantaneous-field constraint on the diagonal. At inference, MeanFlowSE performs single-step generation via a backward-in-time displacement, removing the need for multistep solvers; an optional few-step variant offers additional refinement. On VoiceBank-DEMAND, the single-step model achieves strong intelligibility, fidelity, and perceptual quality with substantially lower computational cost than multistep baselines. The method requires no knowledge distillation or external teachers, providing an efficient, high-fidelity framework for real-time generative speech enhancement. The proposed method is open-sourced at https://github.com/liduojia1/MeanFlowSE.

Ссылки и действия