Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription
2508.07987v1
cs.SD, cs.CL, eess.AS
2025-08-13
Авторы:
Sebastian Murgul, Michael Heizmann
Резюме на русском
## Контекст
Автоматическая транскрипция акустической гитары с использованием фингерпинкинга представляет собой сложную задачу, ограниченную недостатком меток данных и законодательством в области музыкальных записей. Однако, процедурное генерирование аудиоданных может представить собой эффективный подход для устранения проблемы нехватки данных. Это работа фокусируется на разработке методов процедурного генерирования аудио, которые могут быть использованы для построения моделей транскрипции.
## Метод
Методология включает в себя четыре этапа: 1) генерация табулятуры для фингерпинкинга с использованием процедурного создания, 2) рендеринг MIDI-сигналов для эмуляции игры на гитаре, 3) физическая моделизация звука с помощью расширенного алгоритма Karplus-Strong, и 4) добавление эффектов, таких как сведение и дисторшн, чтобы улучшить аутентичность звука. Эти этапы объединены в конвейер, который генерирует практически готовые данные для обучения моделей.
## Результаты
Эксперименты проводились с использованием синтетических и реальных данных. Модель CRNN-based note-tracking была обучена на этих данных, и ее результаты были сравнены с реальными записями. Было показано, что процедурно генерируемые данные могут достигать приемлемых результатов в задаче транскрипции. Была также показана эффективность файнтюнинга с малым количеством реальных данных, что позволило повысить точность транскрипции.
## Значимость
Процедурно генерируемые данные могут быть применены в многих областях, включая музыкальный анализ, автоматизацию транскрипции и даже создание имитации аккомпанеmenteй. Этот подход обеспечивает гибкость и экономичность в получении данных, что делает его привлекательным для решения задач, где данные с метками являются ограниченными.
## Выводы
Эта работа показывает, что процедурно генерируемые данные могут быть эффективными для обучения моделей транскрипции, даже без больших объемов реальных данных. Будущие исследования будут сфокусированы на расширении моделей для более точной транскрипции и исследовании других музыкальных инструментов.
Abstract
Automatic transcription of acoustic guitar fingerpicking performances remains
a challenging task due to the scarcity of labeled training data and legal
constraints connected with musical recordings. This work investigates a
procedural data generation pipeline as an alternative to real audio recordings
for training transcription models. Our approach synthesizes training data
through four stages: knowledge-based fingerpicking tablature composition, MIDI
performance rendering, physical modeling using an extended Karplus-Strong
algorithm, and audio augmentation including reverb and distortion. We train and
evaluate a CRNN-based note-tracking model on both real and synthetic datasets,
demonstrating that procedural data can be used to achieve reasonable
note-tracking results. Finetuning with a small amount of real data further
enhances transcription accuracy, improving over models trained exclusively on
real recordings. These results highlight the potential of procedurally
generated audio for data-scarce music information retrieval tasks.
Ссылки и действия
Дополнительные ресурсы: