Virtual Consistency for Audio Editing

2509.17219v1 cs.SD, cs.LG 2025-09-24
Авторы:

Matthieu Cervera, Francesco Paissan, Mirco Ravanelli, Cem Subakan

Резюме на русском

## Контекст В последние годы текстово-ориентированные модели для генерирования и редактирования аудио стали значительно продвинуться благодаря развитию нейронных сетей и в области моделей распространения (diffusion models). Однако, на уровне применения, редактирование аудио в свободной форме, особенно в текстовом режиме, остается трудной задачей. Традиционные процессы включают необходимость проведения долгих и ресурсозатратных процедур инверсии, что существенно ограничивает практичность подобных систем. Мы предлагаем Virtual-Consistency-Based Audio Editing System (VC-BAES), которое предлагает эффективное решение для этих проблем, устраняя необходимость в тяжелом инверсионном процессе. Наш подход остается модельно-агностичным, что делает его широко применимым к различным моделям распространения. ## Метод Мы предлагаем Virtual-Consistency-Based Audio Editing System (VC-BAES), который основывается на модификации процесса распространения (diffusion process). Наша система использует гибридную архитектуру, которая сочетает в себе два ключевых компонента: виртуальную консистенцию (virtual consistency) и перенормированную структуру данных. Мы используем регуляризированные вычисления для оптимизации процесса распространения, что позволяет быстро и точно реализовывать желаемые эффекты редактирования. Этот подход требует небольших изменений в существующих моделях и не требует дополнительной оптимизации или тренировки моделей. Это делает нашу систему модельно-агностичной и легко внедримую в различные существующие архитектуры. ## Результаты Мы провели ряд экспериментов, используя различные модели распространения и наборы данных. Наши результаты показывают, что VC-BAES оказывается значительно быстрее существующих методов, в то же время сохраняя высокое качество редактирования. Мы также провели пользовательский испытательный эксперимент с участием 16 человек, который подтвердил высокую эффективность и понятность нашего подхода в сравнении с другими методами. Количественные показатели, такие как Mean Opinion Score (MOS) и Edit Accuracy Score (EAS), показали, что наша система превосходит конкурентов в качестве редактирования и пользовательскому опыту. ## Значимость Предлагаемый подход имеет широкие возможности для применения в области звукорежима, монтажа аудио, генерации голоса и даже в области игровой индустрии. Он предлагает существенное улучшение производительности по сравнению с традиционными методами, что делает его привлекательным для реального времени редактирования. Благодаря модельно-агностичности, наш метод может быть легко интегрирован в различные существующие нейронные модели, при этом не требуя дополнительных изменений или трениро

Abstract

Free-form, text-based audio editing remains a persistent challenge, despite progress in inversion-based neural methods. Current approaches rely on slow inversion procedures, limiting their practicality. We present a virtual-consistency based audio editing system that bypasses inversion by adapting the sampling process of diffusion models. Our pipeline is model-agnostic, requiring no fine-tuning or architectural changes, and achieves substantial speed-ups over recent neural editing baselines. Crucially, it achieves this efficiency without compromising quality, as demonstrated by quantitative benchmarks and a user study involving 16 participants.

Ссылки и действия