Back to Ear: Perceptually Driven High Fidelity Music Reconstruction
2509.14912v1
cs.SD, cs.AI
2025-09-20
Авторы:
Kangdi Wang, Zhiyue Wu, Dinghao Zhou, Rui Lin, Junyu Dai, Tao Jiang
Резюме на русском
## Контекст
Музыкальная реконструкция — это важная задача в области обработки звука, направленная на воссоздание высококачественного аудио отсчётов с помощью различных моделей машинного обучения. Одна из лидирующих парадигм в этой области — Variational Autoencoders (VAEs), которые показали свою эффективность в задачах различной сложности, включая диффузионно-ориентированные методы генерации. Однако, существующие модели часто не учитывают аудио-перцептивные аспекты в процессе обучения, что приводит к ухудшению точности фазы и стерео-спациальной репрезентации. Эти недостатки становятся особенно заметными при работе с высокочастотными гармониями и разделением звуков между каналами. Модель **e-ar-VAE** была разработана для решения этих проблем, предлагая новые подходы к обучению и оптимизации VAE для реконструкции музыкальных сигналов.
## Метод
Модель **e-ar-VAE** предлагает три основных усовершенствования в обучении VAE для музыкальной реконструкции. Во-первых, **K-weighting perceptual filter** применяется перед расчетом потерь, чтобы выравнивать целевую функцию с перцептивными характеристиками звука. Во-вторых, введены два новых потерь для фазы: **Correlation Loss** для повышения стерео-корреляции и **Phase Loss**, основанный на дифференцированных мердах — **Instantaneous Frequency** и **Group Delay**. Эти потери позволяют увеличить точность фазовой репрезентации. В-третьих, предлагается новый способ спектрального надзора: в многоканальном случае **magnitude** супервайзится всеми четырьмя каналами (**Mid/Side/Left/Right**), в то время как **phase** только двумя (**LR**). Это позволяет улучшить спектральную и стерео-синергию.
## Результаты
Эксперименты показали, что **e-ar-VAE** показывает значительно более высокую точность в реконструкции музыкальных сигналов по сравнению с лидирующими моделями. Особенно выдающимися результатами она демонстрирует в области восстановления высокочастотных гармоний и стерео-спациальной структуры. Использованные данные включают различные аудиозаписи, от диапазона частот до 44.1kHz. Вычислительные эксперименты подтвердили, что модель **e-ar-VAE** не только превосходит конкуренты в качестве реконструкции, но и эффективно работает в высокочастотных условиях, где другие модели часто страдают от потерь в точности и спектральной структуре.
## Значимость
Результаты **e-ar-VAE** имеют большое значение для нескольких областей применения:
- **Музыкальная генерация и реконструкция**: Улучшенное качество сигнала обеспечивает более реалистичные и естественные аудио-опыты.
- **Стерео-анализ и анализ звукового спектра**: Более точные фазовые репрезента
Abstract
Variational Autoencoders (VAEs) are essential for large-scale audio tasks
like diffusion-based generation. However, existing open-source models often
neglect auditory perceptual aspects during training, leading to weaknesses in
phase accuracy and stereophonic spatial representation. To address these
challenges, we propose {\epsilon}ar-VAE, an open-source music signal
reconstruction model that rethinks and optimizes the VAE training paradigm. Our
contributions are threefold: (i) A K-weighting perceptual filter applied prior
to loss calculation to align the objective with auditory perception. (ii) Two
novel phase losses: a Correlation Loss for stereo coherence, and a Phase Loss
using its derivatives--Instantaneous Frequency and Group Delay--for precision.
(iii) A new spectral supervision paradigm where magnitude is supervised by all
four Mid/Side/Left/Right components, while phase is supervised only by the LR
components. Experiments show {\epsilon}ar-VAE at 44.1kHz substantially
outperforms leading open-source models across diverse metrics, showing
particular strength in reconstructing high-frequency harmonics and the spatial
characteristics.
Ссылки и действия
Дополнительные ресурсы: