Joint Transcription of Acoustic Guitar Strumming Directions and Chords

2508.07973v1 cs.SD, cs.CL, eess.AS 2025-08-13
Авторы:

Sebastian Murgul, Johannes Schimper, Michael Heizmann

Резюме на русском

## Контекст Музыкальная информационная поисковая система (MIR) становится все более популярной в связи с ростом интереса к автоматизированным системам для анализа и обработки звуковых сигналов. Одна из сложных задач в этой области — автоматическое транскриптирование акустической гитары, особенно при распознавании дирекций подтяжек и прогрессий аккордов. Такой анализ требуется для анализа музыкальных произведений, создания автоматических инструментов для музыкального сопровождения и улучшения интерфейсов для игры на гитаре. Несмотря на существующие решения, их эффективность часто ограничивается недостаточным количеством и качеством данных. Цель данного исследования — расширить текущий подход к транскрипции подтяжек и аккордов, используя новый датасет и современные нейронные сети. ## Метод Для решения задачи использовалась комбинация данных реальных записей и синтетических звуков. Для сбора реальных данных использовались датчики движения ESP32 Smartwatch, позволяющие отслеживать динамику подтяжек на гитаре. Записи были произведены в реальных музыкальных условиях на протяжении 90 минут. Дополнительно создан синтетический набор данных, состоящий из 4 часов звуков с пометками подтяжек и аккордов. Нейронная сеть Convolutional Recurrent Neural Network (CRNN) была обучена для распознавания дирекций подтяжек, их направлений и идентификации аккордов. Алгоритм использовал только звуковые сигналы с микрофона. Эта модель была подготовлена с использованием методов машинного обучения для анализа и распознавания аккордов и подтяжек в реальных условиях. ## Результаты Эксперименты проводились на реальных записях и синтетических данных. В результате получены показатели точности распознавания подтяжек и аккордов. Особенно выдающимися результатами показался комбинированный подход, который использовал как реальные, так и синтетические данные. Этот подход демонстрировал наивысшую точность в распознавании дирекций подтяжек и классификации аккордов. Использование данных с датчиком движения позволило улучшить точность в определении динамических параметров подтяжек, тогда как синтетические данные дали более стабильные результаты в распознавании аккордов. ## Значимость Полученные результаты могут быть применены в различных областях, включая создание автоматизированных инструментов для анализа музыки, улучшение устройств для гитары, а также для создания систем автоматической подборки аккордов для игры. Этот подход также может быть применен для создания интерактивных музыкальных систем, которые будут использоваться в обучении музыка

Abstract

Automatic transcription of guitar strumming is an underrepresented and challenging task in Music Information Retrieval (MIR), particularly for extracting both strumming directions and chord progressions from audio signals. While existing methods show promise, their effectiveness is often hindered by limited datasets. In this work, we extend a multimodal approach to guitar strumming transcription by introducing a novel dataset and a deep learning-based transcription model. We collect 90 min of real-world guitar recordings using an ESP32 smartwatch motion sensor and a structured recording protocol, complemented by a synthetic dataset of 4h of labeled strumming audio. A Convolutional Recurrent Neural Network (CRNN) model is trained to detect strumming events, classify their direction, and identify the corresponding chords using only microphone audio. Our evaluation demonstrates significant improvements over baseline onset detection algorithms, with a hybrid method combining synthetic and real-world data achieving the highest accuracy for both strumming action detection and chord classification. These results highlight the potential of deep learning for robust guitar strumming transcription and open new avenues for automatic rhythm guitar analysis.

Ссылки и действия