Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription
2509.23878v1
cs.SD, cs.AI, cs.MM, eess.AS
2025-10-01
Авторы:
Wei Zeng, Junchuan Zhao, Ye Wang
Резюме на русском
#### Контекст
Изучение музыкальных процессов в области музыкального информационного восстанования (MIR) является ключевым направлением, направленным на понимание и анализ музыкальных данных. Одним из фундаментальных задач в этой области является **экспрессивное исполнение музыки (EPR, Expressive Performance Rendering)**, которое заключается в генерации выразительных исполнений из символических музыкальных нот. Другим задачей является **автоматическая нотная транскрипция (APT, Automatic Piano Transcription)**, направленная на восстановление символических нотных транскрипций из аудиозаписей. Несмотря на то, что эти задачи являются взаимосвязанными и широко изучаются независимо, лишь недавно началась работа над их объединенным решением. Недостаток в едином решении приводит к усложнению обучения модели и снижению точности результатов. Наша мотивация заключается в создании **универсальной системы**, которая могла бы объединить эти задачи, а также обеспечить управление выразительными стилями и эффективную стилистическую передачу.
#### Метод
Мы предлагаем **универсальный трансформер-ориентированный подход**, который моделирует EPR и APT в рамках одного фреймворка. Наша модель основывается на **transformer-based sequence-to-sequence architecture** (трансформер-архитектура с последовательной преобразованием), которая обеспечивает прямое преобразование между двумя представлениями: **символических нот** и **аудиозаписей**.
Чтобы **разделить стиль и содержание** (content-style disentanglement), архитектура разделяет доробление на две ключевые составляющие:
1. **Note-level Score Content**: локальное содержание и отношение между нотами, которое определяет звучание.
2. **Global Performance Style**: глобальный стиль исполнения, который определяет эмоциональный и художественный характер музыки.
**Особенности метода:**
- Мы не требуем тонкой нотной аллигации (fine-grained note alignment), что упрощает обучение.
- Для управления стилем мы используем **дробление (diffusion-based module)**, которая генерирует стилистические эмбеддинги из нотных данных.
- Модель может обучаться как на **парных** (paired), так и на **непарных** (unpaired) данных.
#### Результаты
Мы провели эксперименты на различных данных, включая **семантически близкие и различные стили музыки**.
- **Оценки точности APT:** Модель показала высокую точность восстановления нотных транскрипций, даже при отсутствии тонкой нотной аллигации.
- **Оценки EPR:** Мы провели эксперименты с разными выразительными стилями и показали, что модель эффективно контролирует стиль.
- **Стилистическая передача:** Мы проверили возможность контроля выразительных стилей и показали, что модель отлично справляется с требованиями трансформации стиля.
Abstract
Expressive performance rendering (EPR) and automatic piano transcription
(APT) are fundamental yet inverse tasks in music information retrieval: EPR
generates expressive performances from symbolic scores, while APT recovers
scores from performances. Despite their dual nature, prior work has addressed
them independently. In this paper we propose a unified framework that jointly
models EPR and APT by disentangling note-level score content and global
performance style representations from both paired and unpaired data. Our
framework is built on a transformer-based sequence-to-sequence architecture and
is trained using only sequence-aligned data, without requiring fine-grained
note-level alignment. To automate the rendering process while ensuring
stylistic compatibility with the score, we introduce an independent
diffusion-based performance style recommendation module that generates style
embeddings directly from score content. This modular component supports both
style transfer and flexible rendering across a range of expressive styles.
Experimental results from both objective and subjective evaluations demonstrate
that our framework achieves competitive performance on EPR and APT tasks, while
enabling effective content-style disentanglement, reliable style transfer, and
stylistically appropriate rendering. Demos are available at
https://jointpianist.github.io/epr-apt/