RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing

2509.14003v1 cs.SD, cs.AI 2025-09-19
Авторы:

Liting Gao, Yi Yuan, Yaru Chen, Yuelan Cheng, Zhenbo Li, Juan Wen, Shubin Zhang, Wenwu Wang

Резюме на русском

#### Контекст В последние годы развитие текстово-ориентированных моделей для генерации аудио стало одним из ведущих направлений в области глубокого обучения. Однако, текстово-ориентированная работа с уже существующим аудио — задача, которая только начинает приобретать популярность. Задача, которую мы рассматриваем, подразумевает изменение определенного содержимого в аудио-сигнале, поддерживая все остальное неизменным. Это включает в себя локализацию точек, которые должны быть изменены, и их верификацию по текстовой заявке. Проблема в том, что существующие методы, требующие тщательного тренировочного процесса или затратной оптимизации, часто сталкиваются с проблемами при решении сложных задач, а также с экономическими и практическими ограничениями. Наша цель — разработать модель, которая будет эффективно решать эти проблемы, предоставляя практичные и точные решения для текстово-ориентированного редактирования аудио. #### Метод Мы предлагаем RFM-Editing, новый энд-то-энд фрэймворк, основанный на методе ректифицированного потока (Rectified Flow Matching) для текстово-ориентированного редактирования аудио. Наша модель использует распределительную архитектуру, которая объединяет модель распределения гауссианой структуры и концепции фиксации потока. Данный подход позволяет адаптироваться к изменениям в аудио-сигнале, при этом сохраняя природность и точность изменений. Важной чертой нашего подхода является использование потоковой архитектуры, позволяющей обнаруживать и изменять точки в аудио-сигнале, которые требуют изменений, с учетом текстовой заявки. Мы также строим новую базу данных, содержащую мульти-ивент аудио, чтобы провести справедливые эксперименты в сложных условиях, где необходимо редактировать несколько событий одновременно. #### Результаты Мы проводим эксперименты с нашей моделью на новой базе данных, содержащей аудио с множеством параллельных событий. Мы сравниваем результаты с другими текущими методами, включая zero-shot и обученные модели. Наши эксперименты показывают, что RFM-Editing достигает высокой точности в локализации и изменении целевых компонент аудио-сигнала. Модель также показывает высокую точность в выполнении даже сложных задач, не требуя дополнительных подсказок в виде капшенов или масок. Мы также проверяем фидбэк пользователей и показываем, что наш подход предоставляет более естественные и гармоничные результаты, чем существующие методы. Это подтверждается графическими и статистическими метриками, такими как F1-меры и значимость доверия. #### Значимость Ра

Abstract

Diffusion models have shown remarkable progress in text-to-audio generation. However, text-guided audio editing remains in its early stages. This task focuses on modifying the target content within an audio signal while preserving the rest, thus demanding precise localization and faithful editing according to the text prompt. Existing training-based and zero-shot methods that rely on full-caption or costly optimization often struggle with complex editing or lack practicality. In this work, we propose a novel end-to-end efficient rectified flow matching-based diffusion framework for audio editing, and construct a dataset featuring overlapping multi-event audio to support training and benchmarking in complex scenarios. Experiments show that our model achieves faithful semantic alignment without requiring auxiliary captions or masks, while maintaining competitive editing quality across metrics.

Ссылки и действия