Recomposer: Event-roll-guided generative audio editing
2509.05256v1
cs.SD, cs.AI, cs.LG, eess.AS
2025-09-09
Авторы:
Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal
Резюме на русском
## Контекст
Основной контекст исследования заключается в развитии методов редактирования звуковых сцен, в которых звуковые источники перекрываются во времени. Данная проблема обнаруживается при редактировании реальных звуковых сцен, где необходимо управлять отдельными звуковыми источниками, такими как музыка, речь, или фоновые шумы. Существующие подходы позволяют преобразовывать звуковые сцены, однако ограничены в способности управлять отдельными звуковыми событиями с учетом текстовых описаний или графических моделей. Мотивация заключается в создании системы, позволяющей редактировать отдельные звуковые события с помощью текстовых и графических редактирования, улучшая точность и удобство.
## Метод
Методология основывается на использовании трансформера с архитектурой encoder-decoder, который обучен на синтетических парах (звуковой пример, ожидаемый результат редактирования). Архитектура построена на SoundStream-представлении звука, обеспечивающем высокую точность в хранении деталей звука. Графическая модель "event roll" используется для описания временных характеристик звуковых событий. Система обучена на парах (звуковой пример + текстовое описание), например, "усилить Door", где "Door" — класс звука, "усилить" — действие, а "event roll" — информация о времени. Обучение проводилось на синтетических данных, сформированных путем внедрения отдельных звуковых событий в сложные фоновые звуки.
## Результаты
Оценка системы производилась с помощью метрик, оценивающих качество редактирования, таких как однородность звука и точность изменений. Отдельным экспериментов было проверено влияние каждой части текстового описания: класса звука, времени и действия. Например, точность усиления звука "Door" зависела от точности распознавания класса и времени события. Результаты показали, что система эффективно управляет отдельными звуковыми событиями, даже в сложных реальных сценах.
## Значимость
Предложенная система представляет собой важное решение в области аудио-редактирования, особенно при работе с реальными звуковыми сценами. Она позволяет управлять отдельными звуковыми событиями на основе текстовых и графических данных. Это делает процесс редактирования более точным и удобным. Потенциальные применения включают профессиональное редактирование звуков, создание звуковых эффектов в мультимедиа и синтез звука для виртуальных и реальных сред. Из найденных преимуществ выделяется точность и гибкость системы в редактировании звуков.
## Выводы
Основное достижение — разработка
Abstract
Editing complex real-world sound scenes is difficult because individual sound
sources overlap in time. Generative models can fill-in missing or corrupted
details based on their strong prior understanding of the data domain. We
present a system for editing individual sound events within complex scenes able
to delete, insert, and enhance individual sound events based on textual edit
descriptions (e.g., ``enhance Door'') and a graphical representation of the
event timing derived from an ``event roll'' transcription. We present an
encoder-decoder transformer working on SoundStream representations, trained on
synthetic (input, desired output) audio example pairs formed by adding isolated
sound events to dense, real-world backgrounds. Evaluation reveals the
importance of each part of the edit descriptions -- action, class, timing. Our
work demonstrates ``recomposition'' is an important and practical application.