Two Web Toolkits for Multimodal Piano Performance Dataset Acquisition and Fingering Annotation
2509.15222v1
cs.SD, cs.CV, cs.MM, eess.AS, eess.IV
2025-09-20
Авторы:
Junhyung Park, Yonghyun Kim, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam
Резюме на русском
## Контекст
Исследование пианиновой игры является ключевым направлением в анализе мультимодальных данных, так как это сложная физиологическая и музыкальная деятельность, заключающаяся в комбинации физических движений и акустических результатов. Несмотря на возрастающий интерес к анализу пианиновой игры с мультимодальным подходом, значительная проблема заключается в сложности получения больших многомодальных наборов данных. Это ограничивает прогресс в развитии технологий для анализа и моделирования пианиновой игры. Для решения этой проблемы предлагается интегрированная веб-система, которая упрощает процесс сбора и анализа мультимодальных данных в сфере пианиновой игры.
## Метод
Двух веб-инструментов, представленных в этой работе, лежит современная методология анализа пианиновой игры. **PiaRec (Piano Recording and Annotation)** предоставляет интерфейс для синхронного захвата аудио, видео, MIDI и метаданных исполнения. **ASDF (Annotating Speed, Dynamics, and Fingering)** предлагает интеллектуальный интерфейс для эффективной аннотации жесткости, динамики и пальцевого упорядочивания (fingering) на основе визуальных данных. Оба инструмента интегрированы в единую веб-платформу, обеспечивающую простой доступ к инструментам и упрощающую процесс сбора и анализа данных.
## Результаты
Используя этот подход, был проведен эксперимент по сбору набора данных пианиновой игры, включающий аудио, видео, MIDI-данные и метаданные исполнителя. Эксперимент показал, что **PiaRec** эффективно захватывает все необходимые данные, обеспечивая согласованность и качество. Также была проведена интенсивная аннотация жестов и динамики исполнителей с помощью **ASDF**. Эти результаты позволили получить высококачественный и многомодально аннотированный набор данных, который может быть использован для предсказания и моделирования пианиновой игры.
## Значимость
Предлагаемая платформа представляет собой значительный прорыв в сфере анализа пианиновой игры. Она может использоваться в области компьютерного зрения для распознавания жестов, в музыкальном анализе для понимания динамики и тембра, а также в обучении искусственных нейронных сетей для предсказания имитации пианиновой игры. Это прогресс в анализе музыкальных выступлений, позволяющий создавать более точные модели для искусственного интеллекта в музыке.
## Выводы
Предложенная веб-система, состоящая из **PiaRec** и **ASDF**, является эффективным инструментом для сбора и анализа мультимодальных данных в сфере пианиновой игры. Она упрощает и ускоряет процесс сбора данных, обеспечивая высококачественные мультимодальные аннотации. Будущие исследования буду
Abstract
Piano performance is a multimodal activity that intrinsically combines
physical actions with the acoustic rendition. Despite growing research interest
in analyzing the multimodal nature of piano performance, the laborious process
of acquiring large-scale multimodal data remains a significant bottleneck,
hindering further progress in this field. To overcome this barrier, we present
an integrated web toolkit comprising two graphical user interfaces (GUIs): (i)
PiaRec, which supports the synchronized acquisition of audio, video, MIDI, and
performance metadata. (ii) ASDF, which enables the efficient annotation of
performer fingering from the visual data. Collectively, this system can
streamline the acquisition of multimodal piano performance datasets.