Flowing Straighter with Conditional Flow Matching for Accurate Speech Enhancement

2508.20584v1 cs.SD, cs.AI, cs.LG 2025-08-29
Авторы:

Mattias Cross, Anton Ragni

Резюме на русском

## Контекст Повышение качества речи является ключевым заданием в области акустического обработки сигналов. Основной проблемой в данной области является лишняя шумовая компонента, которая затрудняет распознавание речи. Существуют различные методы по повышению качества речи, включая генеративные подходы, такие как векторное сжатие и скользящие окна. Несмотря на достигнутые успехи, эти методы не всегда обеспечивают полное устранение шума или неэффективно работают в условиях низкого качества записи. Таким образом, существует необходимость в разработке более эффективных подходов к повышению качества речи, которые могут обеспечить наилучшую ясность и звуковую чистоту. ## Метод Технология, используемая в данном исследовании, основана на подходе стохастического потока (flow-based generative models), который используется для моделирования распределений в сигнале речи. Используется метод "Скороdingерская труба" (Schrodinger Bridge), который стремится моделировать кривые пути между шумом и чистым сигналом речи. Тем не менее, поиск прямых путей, таких как вариант "Условное стохастическое соответствие" (Conditional Flow Matching), является новым подходом к повышению качества речи. Этот подход сосредоточен на моделировании прямых связей между шумовым и чистым сигналом, что позволяет повысить точность и уменьшить комплексность процесса обучения. ## Результаты В экспериментах использовались специально подготовленные данные речи с разным уровнем шума. Метод Conditional Flow Matching показал значительные улучшения по сравнению с подходом Schrodinger Bridge в различных метриках качества речи, таких как Signal-to-Noise Ratio (SNR) и Perceptual Evaluation of Speech Quality (PESQ). Кроме того, указано, что Conditional Flow Matching не только повышает качество речи, но и уменьшает необходимое время обучения и расчета. Таким образом, полученные результаты подтверждают, что использование условного стохастического соответствия может привести к значительным улучшениям в речевом повышении качества. ## Значимость Полученный подход может быть применен в различных сферах, включая системы распознавания речи, телекоммуникации и медицинские приложения. Одной из основных преимуществ является увеличение точности распознавания речи, что может быть критично в ситуациях, требующих высокого качества аудио. Также, полученный подход может снизить вычислительные затраты и улучшить эффективность обучения моделей. Это может привести к меньшим затратам на ресурсы и более быстром развитии новых технологий в области речи и аудио-процессинга. ## Выводы Результаты исследования показывают, что условное стохастическое соответствие является эффективным методом

Abstract

Current flow-based generative speech enhancement methods learn curved probability paths which model a mapping between clean and noisy speech. Despite impressive performance, the implications of curved probability paths are unknown. Methods such as Schrodinger bridges focus on curved paths, where time-dependent gradients and variance do not promote straight paths. Findings in machine learning research suggest that straight paths, such as conditional flow matching, are easier to train and offer better generalisation. In this paper we quantify the effect of path straightness on speech enhancement quality. We report experiments with the Schrodinger bridge, where we show that certain configurations lead to straighter paths. Conversely, we propose independent conditional flow-matching for speech enhancement, which models straight paths between noisy and clean speech. We demonstrate empirically that a time-independent variance has a greater effect on sample quality than the gradient. Although conditional flow matching improves several speech quality metrics, it requires multiple inference steps. We rectify this with a one-step solution by inferring the trained flow-based model as if it was directly predictive. Our work suggests that straighter time-independent probability paths improve generative speech enhancement over curved time-dependent paths.

Ссылки и действия