Back to Ear: Perceptually Driven High Fidelity Music Reconstruction

2509.14912v1 cs.SD, cs.AI 2025-09-20
Авторы:

Kangdi Wang, Zhiyue Wu, Dinghao Zhou, Rui Lin, Junyu Dai, Tao Jiang

Резюме на русском

## Контекст Музыкальная реконструкция — это важная задача в области обработки звука, направленная на воссоздание высококачественного аудио отсчётов с помощью различных моделей машинного обучения. Одна из лидирующих парадигм в этой области — Variational Autoencoders (VAEs), которые показали свою эффективность в задачах различной сложности, включая диффузионно-ориентированные методы генерации. Однако, существующие модели часто не учитывают аудио-перцептивные аспекты в процессе обучения, что приводит к ухудшению точности фазы и стерео-спациальной репрезентации. Эти недостатки становятся особенно заметными при работе с высокочастотными гармониями и разделением звуков между каналами. Модель **e-ar-VAE** была разработана для решения этих проблем, предлагая новые подходы к обучению и оптимизации VAE для реконструкции музыкальных сигналов. ## Метод Модель **e-ar-VAE** предлагает три основных усовершенствования в обучении VAE для музыкальной реконструкции. Во-первых, **K-weighting perceptual filter** применяется перед расчетом потерь, чтобы выравнивать целевую функцию с перцептивными характеристиками звука. Во-вторых, введены два новых потерь для фазы: **Correlation Loss** для повышения стерео-корреляции и **Phase Loss**, основанный на дифференцированных мердах — **Instantaneous Frequency** и **Group Delay**. Эти потери позволяют увеличить точность фазовой репрезентации. В-третьих, предлагается новый способ спектрального надзора: в многоканальном случае **magnitude** супервайзится всеми четырьмя каналами (**Mid/Side/Left/Right**), в то время как **phase** только двумя (**LR**). Это позволяет улучшить спектральную и стерео-синергию. ## Результаты Эксперименты показали, что **e-ar-VAE** показывает значительно более высокую точность в реконструкции музыкальных сигналов по сравнению с лидирующими моделями. Особенно выдающимися результатами она демонстрирует в области восстановления высокочастотных гармоний и стерео-спациальной структуры. Использованные данные включают различные аудиозаписи, от диапазона частот до 44.1kHz. Вычислительные эксперименты подтвердили, что модель **e-ar-VAE** не только превосходит конкуренты в качестве реконструкции, но и эффективно работает в высокочастотных условиях, где другие модели часто страдают от потерь в точности и спектральной структуре. ## Значимость Результаты **e-ar-VAE** имеют большое значение для нескольких областей применения: - **Музыкальная генерация и реконструкция**: Улучшенное качество сигнала обеспечивает более реалистичные и естественные аудио-опыты. - **Стерео-анализ и анализ звукового спектра**: Более точные фазовые репрезента

Abstract

Variational Autoencoders (VAEs) are essential for large-scale audio tasks like diffusion-based generation. However, existing open-source models often neglect auditory perceptual aspects during training, leading to weaknesses in phase accuracy and stereophonic spatial representation. To address these challenges, we propose {\epsilon}ar-VAE, an open-source music signal reconstruction model that rethinks and optimizes the VAE training paradigm. Our contributions are threefold: (i) A K-weighting perceptual filter applied prior to loss calculation to align the objective with auditory perception. (ii) Two novel phase losses: a Correlation Loss for stereo coherence, and a Phase Loss using its derivatives--Instantaneous Frequency and Group Delay--for precision. (iii) A new spectral supervision paradigm where magnitude is supervised by all four Mid/Side/Left/Right components, while phase is supervised only by the LR components. Experiments show {\epsilon}ar-VAE at 44.1kHz substantially outperforms leading open-source models across diverse metrics, showing particular strength in reconstructing high-frequency harmonics and the spatial characteristics.

Ссылки и действия