PianoVAM: A Multimodal Piano Performance Dataset
2509.08800v1
cs.SD, cs.AI, cs.CV, cs.MM, eess.AS
2025-09-11
Авторы:
Yonghyun Kim, Junhyung Park, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam
Резюме на русском
#### Контекст
Музыкальное исполнение является кросс-модальным процессом, который включает в себя аудио-, визуальные и даже третье-модальные сигналы (например, ритмические или структурные признаки). Однако большинство данных в области музыкальной информационной ретроспективы (MIR) ограничиваются только аудиосигналом, что существенно ограничивает возможности исследователей. Недостаток мультимодальных данных в MIR затрудняет развитие методов, моделей и алгоритмов, которые могли бы более глубоко и адекватно анализировать и понимать глубинные связи между различными модальностями в музыкальном исполнении.
#### Метод
Dataset PianoVAM представляет собой крупномасштабную коллекцию мультимодальных данных, содержащую видео, аудио, MIDI, ландмарки рук, метки нотного игры и многочисленную метаинформацию. Данные были записаны с помощью Disklavier-пианино, которое запечатлевало аудио и MIDI в режиме реального времени, а также синхронизированно воспроизводил видеозаписи в виде топ-видков. Ландмарки рук и метки нотного игры были извлечены с использованием предобученных моделей рери-позиционирования рук и с помощью специального алгоритма полуавтоматической аннотации игры. Задача сбора данных была связана с рядом технических трудностей, включая синхронизацию различных модальностей, корректную идентификацию рукопашных движений и их соотнесение с музыкальными заметками.
#### Результаты
На основе данных PianoVAM проводились эксперименты по транскрибированию аудио и видео. Набор данных был разделен на тренировочную, валидационную и тестовую выборку. Метриками оценки выступали точность транскрибирования и F1-меру. Обучение и оценка использовались на основе последних моделей глубокого обучения, таких как Transformer-based модели для видео-аудио транскрибирования. Исследования показали, что мультимодальный подход, включающий видео, избыточно улучшает точность предсказаний в сравнении с моделями, использующими только аудиосигнал.
#### Значимость
Полученные результаты указывают на важность мультимодальных методов в области MIR, особенно в контексте транскрибирования музыки. Данные PianoVAM могут быть использованы в разработке моделей, которые будут учитывать взаимодействие между звуком, видео и другими модальностями для получения более точных и естественных результатов. Это может быть применено в синтезе музыки, виртуальных пианистов, анализе исполнений и визуальных представлениях музыки, и даже в улучшении интерактивных систем для обучения и исполнения музыки.
#### Выводы
Представленный PianoV
Abstract
The multimodal nature of music performance has driven increasing interest in
data beyond the audio domain within the music information retrieval (MIR)
community. This paper introduces PianoVAM, a comprehensive piano performance
dataset that includes videos, audio, MIDI, hand landmarks, fingering labels,
and rich metadata. The dataset was recorded using a Disklavier piano, capturing
audio and MIDI from amateur pianists during their daily practice sessions,
alongside synchronized top-view videos in realistic and varied performance
conditions. Hand landmarks and fingering labels were extracted using a
pretrained hand pose estimation model and a semi-automated fingering annotation
algorithm. We discuss the challenges encountered during data collection and the
alignment process across different modalities. Additionally, we describe our
fingering annotation method based on hand landmarks extracted from videos.
Finally, we present benchmarking results for both audio-only and audio-visual
piano transcription using the PianoVAM dataset and discuss additional potential
applications.