MeanFlowSE: one-step generative speech enhancement via conditional mean flow
2509.14858v2
cs.SD, cs.AI
2025-09-22
Авторы:
Duojia Li, Shenghui Lu, Hongchen Pan, Zongyi Zhan, Qingyang Hong, Lin Li
Резюме на русском
## Контекст
Говорение — отражение гуманного опыта и культуры, являясь важной интеллектуальной формой. Однако фоновый шум и другие помехи влияют на звучание говорения, ухудшая качество и четкость. Технологии улучшения говорения, такие как flow- и diffusion-based системы, позволяют улучшить звучание говорения в реальном времени. Однако эти системы зависят от многошаговой интерпретации, что ограничивает их применение в рамках реального времени. Данное исследование фокусируется на разработке единоразовой модели улучшения говорения, которая удалит необходимость в многошаговой обработке.
## Метод
Метод, предложенный в работе, назван MeanFlowSE. Он основывается на понятии **conditional mean flow**, которое позволяет учитывать среднюю скорость вдоль малых интервалов на пути траектории. Модель использует **Jacobian-vector product (JVP)** для генерирования локальных движущихся объектов, чтобы выразить конечный дисплей запрошенного сигнала. Для того чтобы максимально сохранить согласование с ограничениями локальной траектории, была разработана **особая локальная целевая функция**. Таким образом, модель не только устраняет необходимость в многошаговой обработке, но и обеспечивает высокое качество улучшения говорения.
## Результаты
В экспериментах были проанализированы различные аспекты, такие как говорение, фидлити, интеллектуальность и некоторые другие показатели. Использовались данные из VoiceBank-DEMAND. Была показана высокая эффективность модели MeanFlowSE в реальном времени. Она достигла существенного улучшения говорения, сохранив высокую четкость и низкие затраты вычислительных ресурсов. Особенно выделяется то, что это происходит без использования любого внешнего teacher или методов знания дистилляции.
## Значимость
Предложенная модель является примером эффективного и простого в использовании подхода для решения проблем реального времени в области улучшения говорения. Она открывает новые горизонты для применения в системах, требующих сильного улучшения говорения в целях, таких как коммуникация, медицина, а также в области развития голосовых помощников. Благодаря своей простоте и эффективности, MeanFlowSE может значительно улучшить жизнь пользователей, предлагая решение, которое не требует высоких вычислительных мощностей.
## Выводы
В итоге, MeanFlowSE продемонстрировала свою эффективность в реальном времени, обеспечив высокое качество улучшения говорения. Будущие исследования будут направлены на улучшение модели, оптимизацию её работы в ненормальных условиях и расширение её применения в различных сферах.
Abstract
Multistep inference is a bottleneck for real-time generative speech
enhancement because flow- and diffusion-based systems learn an instantaneous
velocity field and therefore rely on iterative ordinary differential equation
(ODE) solvers. We introduce MeanFlowSE, a conditional generative model that
learns the average velocity over finite intervals along a trajectory. Using a
Jacobian-vector product (JVP) to instantiate the MeanFlow identity, we derive a
local training objective that directly supervises finite-interval displacement
while remaining consistent with the instantaneous-field constraint on the
diagonal. At inference, MeanFlowSE performs single-step generation via a
backward-in-time displacement, removing the need for multistep solvers; an
optional few-step variant offers additional refinement. On VoiceBank-DEMAND,
the single-step model achieves strong intelligibility, fidelity, and perceptual
quality with substantially lower computational cost than multistep baselines.
The method requires no knowledge distillation or external teachers, providing
an efficient, high-fidelity framework for real-time generative speech
enhancement. The proposed method is open-sourced at
https://github.com/liduojia1/MeanFlowSE.
Ссылки и действия
Дополнительные ресурсы: