Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement

2509.15952v2 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-23
Авторы:

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

Резюме на русском

## Контекст Современные методы синтеза речи, такие как diffusion и flow matching (FM), достигли выдающихся результатов в области улучшения речи (speech enhancement, SE). Однако эти подходы обычно требуют многошагового генерирования, что не только требует высоких ресурсов вычислений, но и подвержено ошибкам дискретизации. В последнее время наблюдается рост интереса к одношаговым моделям генерирования, которые могут обеспечить более эффективное и точное генерирование с меньшими затратами. Одним из таких подходов является MeanFlow, который использует среднюю скорость в качестве динамического поля для генерирования. Тем не менее, существуют проблемы, связанные с вычислительной сложностью расчета Jacobian-vector product (JVP) в MeanFlow. В этой работе мы предлагаем COSE — новую одношаговую модель FM, оптимизированную для SE, которая решает эти проблемы и позволяет достичь высокой эффективности. ## Метод COSE основывается на идее автоматического сложения скоростей вдоль многомерных пространственных полей. В центре модели лежит концепция velocity composition identity, которая позволяет эффективно вычислять среднюю скорость без необходимости вычислять дорогостоящие Jacobian-vector product. Модель COSE реализует одношаговое генерирование речи, используя среднюю скорость в качестве главного динамического управляющего поля. Эта архитектура обеспечивает высокую эффективность вычислений, но при этом сохраняет теоретическую точность и качество звука. ## Результаты Мы провели исследования на различных стандартных бенчмарках для SE. COSE показала скорость генерирования до 5 раз выше по сравнению с традиционными многошаговыми FM-моделями. Это достигнуто без каких-либо потерь в качестве речи. Кроме того, уменьшение затрат на обучение достигло 40%, что делает COSE более экономичной в плане ресурсов. Эксперименты подтверждают, что COSE сохраняет высокое качество речи в то же время, что и традиционные методы, но с значительно более высокой эффективностью. ## Значимость Модель COSE может применяться в различных сферах, где требуется высококачественное улучшение речи, например, в голосовых помощниках, видеоконференциях, медицине и т. д. Особым преимуществом COSE является ее высокая эффективность и компактность, что делает ее подходом выгодным для реализации в реальных системах. Благодаря своей одношаговой природе, COSE также может быть интегрирована с другими моделями генерирования, что повышает потенциал для развития будущих технологий в области синтеза речи. ## Выводы Мы представили COSE — новую одношаговую модель FM, оптимизированную для SE, которая эффективно решает проблемы вычислительной сложности и затрат на обучение. Резу

Abstract

Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobian-vector product (JVP) computations in MeanFlow, we introduce a velocity composition identity to compute average velocity efficiently, eliminating expensive computation while preserving theoretical consistency and achieving competitive enhancement quality. Extensive experiments on standard benchmarks show that COSE delivers up to 5x faster sampling and reduces training cost by 40%, all without compromising speech quality. Code is available at https://github.com/ICDM-UESTC/COSE.

Ссылки и действия