SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
2508.03448v1
cs.SD, cs.AI, cs.MM, eess.AS
2025-08-06
Авторы:
Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
Резюме на русском
**Резюме:**
Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыточная реверберация, дисторсия, клиппинг, дисбаланс тонов и ограниченная стереоизображение. Коррекция этих артефактов обычно требует отдельных специализированных инструментов и ручных настроек.
В данной работе представлен **SonicMaster** — первый унифицированный генеративный модель для восстановления и мастеринга музыки, которая решает широкий спектр аудио-дефектов с помощью текстовых инструкций. Модель может функционировать в режиме автоматического восстановления или принимать целенаправленные улучшения на основе естественного языка. Для обучения **SonicMaster** был создан набор данных, состоящий из пар изведенных и высококачественных треков, симулированных с помощью 19 функций деградации в пяти категориях: эквалайзинг, динамика, реверберация, амплитуда и стерео. Обучение основывается на подходе flow-matching, который преобразует деградированный вход в очищенную и мастерированную версию, руководствуясь текстовыми запросами.
Объективные метрики качества звука показывают значительное улучшение во всех категориях артефактов. Субъективные тесты прослушивания подтверждают, что пользователи предпочитают улучшенные выходные данные **SonicMaster** по сравнению с оригинальными деградированными треками, подчеркивая эффективность предложенного подхода.
Abstract
Music recordings often suffer from audio quality issues such as excessive
reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo
image, especially when created in non-professional settings without specialized
equipment or expertise. These problems are typically corrected using separate
specialized tools and manual adjustments. In this paper, we introduce
SonicMaster, the first unified generative model for music restoration and
mastering that addresses a broad spectrum of audio artifacts with text-based
control. SonicMaster is conditioned on natural language instructions to apply
targeted enhancements, or can operate in an automatic mode for general
restoration. To train this model, we construct the SonicMaster dataset, a large
dataset of paired degraded and high-quality tracks by simulating common
degradation types with nineteen degradation functions belonging to five
enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our
approach leverages a flow-matching generative training paradigm to learn an
audio transformation that maps degraded inputs to their cleaned, mastered
versions guided by text prompts. Objective audio quality metrics demonstrate
that SonicMaster significantly improves sound quality across all artifact
categories. Furthermore, subjective listening tests confirm that listeners
prefer SonicMaster's enhanced outputs over the original degraded audio,
highlighting the effectiveness of our unified approach.