Recomposer: Event-roll-guided generative audio editing

2509.05256v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-09

Авторы:

Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

Резюме на русском

## Контекст Основной контекст исследования заключается в развитии методов редактирования звуковых сцен, в которых звуковые источники перекрываются во времени. Данная проблема обнаруживается при редактировании реальных звуковых сцен, где необходимо управлять отдельными звуковыми источниками, такими как музыка, речь, или фоновые шумы. Существующие подходы позволяют преобразовывать звуковые сцены, однако ограничены в способности управлять отдельными звуковыми событиями с учетом текстовых описаний или графических моделей. Мотивация заключается в создании системы, позволяющей редактировать отдельные звуковые события с помощью текстовых и графических редактирования, улучшая точность и удобство. ## Метод Методология основывается на использовании трансформера с архитектурой encoder-decoder, который обучен на синтетических парах (звуковой пример, ожидаемый результат редактирования). Архитектура построена на SoundStream-представлении звука, обеспечивающем высокую точность в хранении деталей звука. Графическая модель "event roll" используется для описания временных характеристик звуковых событий. Система обучена на парах (звуковой пример + текстовое описание), например, "усилить Door", где "Door" — класс звука, "усилить" — действие, а "event roll" — информация о времени. Обучение проводилось на синтетических данных, сформированных путем внедрения отдельных звуковых событий в сложные фоновые звуки. ## Результаты Оценка системы производилась с помощью метрик, оценивающих качество редактирования, таких как однородность звука и точность изменений. Отдельным экспериментов было проверено влияние каждой части текстового описания: класса звука, времени и действия. Например, точность усиления звука "Door" зависела от точности распознавания класса и времени события. Результаты показали, что система эффективно управляет отдельными звуковыми событиями, даже в сложных реальных сценах. ## Значимость Предложенная система представляет собой важное решение в области аудио-редактирования, особенно при работе с реальными звуковыми сценами. Она позволяет управлять отдельными звуковыми событиями на основе текстовых и графических данных. Это делает процесс редактирования более точным и удобным. Потенциальные применения включают профессиональное редактирование звуков, создание звуковых эффектов в мультимедиа и синтез звука для виртуальных и реальных сред. Из найденных преимуществ выделяется точность и гибкость системы в редактировании звуков. ## Выводы Основное достижение — разработка

Abstract

Editing complex real-world sound scenes is difficult because individual sound sources overlap in time. Generative models can fill-in missing or corrupted details based on their strong prior understanding of the data domain. We present a system for editing individual sound events within complex scenes able to delete, insert, and enhance individual sound events based on textual edit descriptions (e.g., ``enhance Door'') and a graphical representation of the event timing derived from an ``event roll'' transcription. We present an encoder-decoder transformer working on SoundStream representations, trained on synthetic (input, desired output) audio example pairs formed by adding isolated sound events to dense, real-world backgrounds. Evaluation reveals the importance of each part of the edit descriptions -- action, class, timing. Our work demonstrates ``recomposition'' is an important and practical application.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Recomposer: Event-roll-guided generative audio editing

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Advancing Marine Bioacoustics with Deep Generative Models: A Hybrid Augmentation...

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Automatic Music Sample Identification with Multi-Track Contrastive Learning

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Навигация