Exploring System Adaptations For Minimum Latency Real-Time Piano Transcription

2509.07586v1 eess.AS, cs.LG, cs.SD 2025-09-11

Авторы:

Patricia Hu, Silvan David Peter, Jan Schlüter, Gerhard Widmer

Резюме на русском

Эта статья посвящена изучению возможностей адаптации современных моделей транскрипции музыкальных произведений для реального времени, с минимальной задержкой. Нацелена она на задачи воспроизведения и транскрипции звуков пианино в реальном времени, где задержка должна составлять меньше 30 миллисекунд. Такая задача является ключевой для применения музыкальных технологий в реальных условиях, но до сих пор была нерешенной. ## Контекст Область транскрибирования звуков пианино широко применяется в музыкальных приложениях, таких как автоматическое воспроизведение, анализ композиций и даже игра на электронных инструментах. Однако существующие модели, работающие в оффлайн режиме, не подходят для реального времени из-за высокой задержки. Другие модели, работающие в реальном времени, страдают от больших задержек в 128–320 миллисекунд, что не приемлемо для музыкальных приложений. Мотивация этого исследования заключается в том, чтобы разработать модель, которая могла бы обеспечить адекватный рабочий процесс в реальном времени с минимальной задержкой. ## Метод Методология исследования основывается на изменении и адаптации существующих моделей транскрипции, чтобы достичь минимальной задержки без потери качества транскрипции. Авторы используют нейронные сети, которые структурируются таким образом, чтобы исключить все некаскадные процессы, такие как обратная связь, и минимизировать вычислительный заряд. Например, они применяют вариации моделей разной степени сложности и используют различные предобработки и постпроцессинг, чтобы оптимизировать транскрипцию. Особое внимание уделено систематическому анализу этих подходов и их последствий на точность транскрипции. ## Результаты Экспериментальные исследования проводились на датасете MAESTRO, который включает в себя многочисленные записи музыки для пианино. Результаты показали, что применение строго каскадных процессов приводит к снижению точности транскрипции. Тем не менее, удалось достичь уменьшения задержки до приемлемого уровня. Однако эта адаптация показала взаимосвязь между задержкой предварительной обработки и точностью предсказания. Это позволило выявить торговую марку между минимальной задержкой и воспроизведением без потерь. ## Значимость Результаты данного исследования имеют важное значение для многих областей, таких как музыкальные приложения, реальное время интерактивности, а также для развития новых технологий в области музыки и звука. Эта модель может быть применена в реальных ситуациях, таких как воспроизведение музыки в реальном времени

Abstract

Advances in neural network design and the availability of large-scale labeled datasets have driven major improvements in piano transcription. Existing approaches target either offline applications, with no restrictions on computational demands, or online transcription, with delays of 128-320 ms. However, most real-time musical applications require latencies below 30 ms. In this work, we investigate whether and how the current state-of-the-art online transcription model can be adapted for real-time piano transcription. Specifically, we eliminate all non-causal processing, and reduce computational load through shared computations across core model components and variations in model size. Additionally, we explore different pre- and postprocessing strategies, and related label encoding schemes, and discuss their suitability for real-time transcription. Evaluating the adaptions on the MAESTRO dataset, we find a drop in transcription accuracy due to strictly causal processing as well as a tradeoff between the preprocessing latency and prediction accuracy. We release our system as a baseline to support researchers in designing models towards minimum latency real-time transcription.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Exploring System Adaptations For Minimum Latency Real-Time Piano Transcription

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separatio...

Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Local...

Systematic evaluation of time-frequency features for binaural sound source local...

Diffusion Buffer for Online Generative Speech Enhancement

Drax: Speech Recognition with Discrete Flow Matching

Навигация