Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement

2509.15952v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-23
Авторы:

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

Резюме на русском

#### Контекст Современные системы обработки речи чрезвычайно важны для различных приложений, включая распознавание речи, перевод и улучшение речи. Однако существуют серьезные проблемы, связанные с низкой эффективностью и высокой затратой ресурсов при обработке речи в реальном времени. Одна из основных проблем заключается в том, что многие существующие методы требуют многократного вычисления для достижения качественного результата. Это приводит к высоким затратам на вычисления и неэффективности в реальном времени. Необходимо разработать более эффективные алгоритмы, которые обеспечивают высокое качество улучшения речи с меньшими затратами на вычисления. #### Метод Мы предлагаем **COSE (Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement)**, новый метод для одношаговой обработки речи. Метод основан на **алгоритме Флоу (Flow)**, но вместо традиционных методов, основанных на многошаговых вычислениях, мы предлагаем использовать **скоростные поля средней скорости**. Это позволяет эффективно преобразовывать исходные звуковые сигналы в целевые сигналы за один шаг. Также мы ввели **композиционную идентитеть скорости**, которая упрощает вычисления и уменьшает накладные расходы. Это позволяет методу работать быстрее и эффективнее, сохраняя теоретическую корректность и качество звука. #### Результаты Мы проверили COSE на стандартных бенчмарках для обработки речи. Эксперименты показали, что COSE достигает результатов, которые в 5 раз быстрее, чем существующие методы, при этом уменьшая затраты на обучение в 40%. Мы также проверили качество улучшения речи и показали, что COSE не отстает от конкурентов в этом плане. Наши результаты подтверждают, что COSE является эффективным и пра prактичным алгоритмом для одношаговой обработки речи. #### Значимость COSE может быть применен в различных сферах, включая распознавание речи, генерацию речи и улучшение речи в реальном времени. Он обеспечивает значительное улучшение производительности за счет уменьшения затрат на вычисления и ускорения обработки. Основное преимущество COSE заключается в том, что он позволяет достичь высокого качества речи с меньшими затратами на ресурсы. Это может быть ответственно за будущие развития в области интеллектуальных систем обработки речи. #### Выводы Мы представили COSE, новый одношаговый метод для обработки речи, который эффективно решает проблему высоких затрат на вычисления. Наши эксперименты показали, что COSE достигает высоких результатов качества с меньшими расходами на ресурсы. В дальнейшем мы планируем расширить применение COSE на другие сферы и улучшить его алгоритм, чтобы достичь еще более высокого качества и эффективности.

Abstract

Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobian-vector product (JVP) computations in MeanFlow, we introduce a velocity composition identity to compute average velocity efficiently, eliminating expensive computation while preserving theoretical consistency and achieving competitive enhancement quality. Extensive experiments on standard benchmarks show that COSE delivers up to 5x faster sampling and reduces training cost by 40%, all without compromising speech quality. Code is available at https://github.com/ICDM-UESTC/COSE.

Ссылки и действия