Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription

2509.23878v1 cs.SD, cs.AI, cs.MM, eess.AS 2025-10-01

Авторы:

Wei Zeng, Junchuan Zhao, Ye Wang

Резюме на русском

#### Контекст Изучение музыкальных процессов в области музыкального информационного восстанования (MIR) является ключевым направлением, направленным на понимание и анализ музыкальных данных. Одним из фундаментальных задач в этой области является **экспрессивное исполнение музыки (EPR, Expressive Performance Rendering)**, которое заключается в генерации выразительных исполнений из символических музыкальных нот. Другим задачей является **автоматическая нотная транскрипция (APT, Automatic Piano Transcription)**, направленная на восстановление символических нотных транскрипций из аудиозаписей. Несмотря на то, что эти задачи являются взаимосвязанными и широко изучаются независимо, лишь недавно началась работа над их объединенным решением. Недостаток в едином решении приводит к усложнению обучения модели и снижению точности результатов. Наша мотивация заключается в создании **универсальной системы**, которая могла бы объединить эти задачи, а также обеспечить управление выразительными стилями и эффективную стилистическую передачу. #### Метод Мы предлагаем **универсальный трансформер-ориентированный подход**, который моделирует EPR и APT в рамках одного фреймворка. Наша модель основывается на **transformer-based sequence-to-sequence architecture** (трансформер-архитектура с последовательной преобразованием), которая обеспечивает прямое преобразование между двумя представлениями: **символических нот** и **аудиозаписей**. Чтобы **разделить стиль и содержание** (content-style disentanglement), архитектура разделяет доробление на две ключевые составляющие: 1. **Note-level Score Content**: локальное содержание и отношение между нотами, которое определяет звучание. 2. **Global Performance Style**: глобальный стиль исполнения, который определяет эмоциональный и художественный характер музыки. **Особенности метода:** - Мы не требуем тонкой нотной аллигации (fine-grained note alignment), что упрощает обучение. - Для управления стилем мы используем **дробление (diffusion-based module)**, которая генерирует стилистические эмбеддинги из нотных данных. - Модель может обучаться как на **парных** (paired), так и на **непарных** (unpaired) данных. #### Результаты Мы провели эксперименты на различных данных, включая **семантически близкие и различные стили музыки**. - **Оценки точности APT:** Модель показала высокую точность восстановления нотных транскрипций, даже при отсутствии тонкой нотной аллигации. - **Оценки EPR:** Мы провели эксперименты с разными выразительными стилями и показали, что модель эффективно контролирует стиль. - **Стилистическая передача:** Мы проверили возможность контроля выразительных стилей и показали, что модель отлично справляется с требованиями трансформации стиля.

Abstract

Expressive performance rendering (EPR) and automatic piano transcription (APT) are fundamental yet inverse tasks in music information retrieval: EPR generates expressive performances from symbolic scores, while APT recovers scores from performances. Despite their dual nature, prior work has addressed them independently. In this paper we propose a unified framework that jointly models EPR and APT by disentangling note-level score content and global performance style representations from both paired and unpaired data. Our framework is built on a transformer-based sequence-to-sequence architecture and is trained using only sequence-aligned data, without requiring fine-grained note-level alignment. To automate the rendering process while ensuring stylistic compatibility with the score, we introduce an independent diffusion-based performance style recommendation module that generates style embeddings directly from score content. This modular component supports both style transfer and flexible rendering across a range of expressive styles. Experimental results from both objective and subjective evaluations demonstrate that our framework achieves competitive performance on EPR and APT tasks, while enabling effective content-style disentanglement, reliable style transfer, and stylistically appropriate rendering. Demos are available at https://jointpianist.github.io/epr-apt/

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Ge...

AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach

Emotion-Aware Speech Generation with Character-Specific Voices for Comics

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

Навигация