Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription

2508.07987v1 cs.SD, cs.CL, eess.AS 2025-08-13
Авторы:

Sebastian Murgul, Michael Heizmann

Резюме на русском

## Контекст Автоматическая транскрипция акустической гитары с использованием фингерпинкинга представляет собой сложную задачу, ограниченную недостатком меток данных и законодательством в области музыкальных записей. Однако, процедурное генерирование аудиоданных может представить собой эффективный подход для устранения проблемы нехватки данных. Это работа фокусируется на разработке методов процедурного генерирования аудио, которые могут быть использованы для построения моделей транскрипции. ## Метод Методология включает в себя четыре этапа: 1) генерация табулятуры для фингерпинкинга с использованием процедурного создания, 2) рендеринг MIDI-сигналов для эмуляции игры на гитаре, 3) физическая моделизация звука с помощью расширенного алгоритма Karplus-Strong, и 4) добавление эффектов, таких как сведение и дисторшн, чтобы улучшить аутентичность звука. Эти этапы объединены в конвейер, который генерирует практически готовые данные для обучения моделей. ## Результаты Эксперименты проводились с использованием синтетических и реальных данных. Модель CRNN-based note-tracking была обучена на этих данных, и ее результаты были сравнены с реальными записями. Было показано, что процедурно генерируемые данные могут достигать приемлемых результатов в задаче транскрипции. Была также показана эффективность файнтюнинга с малым количеством реальных данных, что позволило повысить точность транскрипции. ## Значимость Процедурно генерируемые данные могут быть применены в многих областях, включая музыкальный анализ, автоматизацию транскрипции и даже создание имитации аккомпанеmenteй. Этот подход обеспечивает гибкость и экономичность в получении данных, что делает его привлекательным для решения задач, где данные с метками являются ограниченными. ## Выводы Эта работа показывает, что процедурно генерируемые данные могут быть эффективными для обучения моделей транскрипции, даже без больших объемов реальных данных. Будущие исследования будут сфокусированы на расширении моделей для более точной транскрипции и исследовании других музыкальных инструментов.

Abstract

Automatic transcription of acoustic guitar fingerpicking performances remains a challenging task due to the scarcity of labeled training data and legal constraints connected with musical recordings. This work investigates a procedural data generation pipeline as an alternative to real audio recordings for training transcription models. Our approach synthesizes training data through four stages: knowledge-based fingerpicking tablature composition, MIDI performance rendering, physical modeling using an extended Karplus-Strong algorithm, and audio augmentation including reverb and distortion. We train and evaluate a CRNN-based note-tracking model on both real and synthetic datasets, demonstrating that procedural data can be used to achieve reasonable note-tracking results. Finetuning with a small amount of real data further enhances transcription accuracy, improving over models trained exclusively on real recordings. These results highlight the potential of procedurally generated audio for data-scarce music information retrieval tasks.

Ссылки и действия