## Контекст
Современные методы синтеза речи, такие как diffusion и flow matching (FM), достигли выдающихся результатов в области улучшения речи (speech enhancement, SE). Однако эти подходы обычно требуют многошагового генерирования, что не только требует высоких ресурсов вычислений, но и подвержено ошибкам дискретизации. В последнее время наблюдается рост интереса к одношаговым моделям генерирования, которые могут обеспечить более эффективное и точное генерирование с меньшими затратами. Одним из таких подходов является MeanFlow, который использует среднюю скорость в качестве динамического поля для генерирования. Тем не менее, существуют проблемы, связанные с вычислительной сложностью расчета Jacobian-vector product (JVP) в MeanFlow. В этой работе мы предлагаем COSE — новую одношаговую модель FM, оптимизированную для SE, которая решает эти проблемы и позволяет достичь высокой эффективности.
## Метод
COSE основывается на идее автоматического сложения скоростей вдоль многомерных пространственных полей. В центре модели лежит концепция velocity composition identity, которая позволяет эффективно вычислять среднюю скорость без необходимости вычислять дорогостоящие Jacobian-vector product. Модель COSE реализует одношаговое генерирование речи, используя среднюю скорость в качестве главного динамического управляющего поля. Эта архитектура обеспечивает высокую эффективность вычислений, но при этом сохраняет теоретическую точность и качество звука.
## Результаты
Мы провели исследования на различных стандартных бенчмарках для SE. COSE показала скорость генерирования до 5 раз выше по сравнению с традиционными многошаговыми FM-моделями. Это достигнуто без каких-либо потерь в качестве речи. Кроме того, уменьшение затрат на обучение достигло 40%, что делает COSE более экономичной в плане ресурсов. Эксперименты подтверждают, что COSE сохраняет высокое качество речи в то же время, что и традиционные методы, но с значительно более высокой эффективностью.
## Значимость
Модель COSE может применяться в различных сферах, где требуется высококачественное улучшение речи, например, в голосовых помощниках, видеоконференциях, медицине и т. д. Особым преимуществом COSE является ее высокая эффективность и компактность, что делает ее подходом выгодным для реализации в реальных системах. Благодаря своей одношаговой природе, COSE также может быть интегрирована с другими моделями генерирования, что повышает потенциал для развития будущих технологий в области синтеза речи.
## Выводы
Мы представили COSE — новую одношаговую модель FM, оптимизированную для SE, которая эффективно решает проблемы вычислительной сложности и затрат на обучение. Резу