Training chord recognition models on artificially generated audio

2508.05878v1 cs.SD, cs.LG 2025-08-12

Авторы:

Martyna Majchrzak, Jacek Mańdziuk

Резюме на русском

## Контекст Исследование аудиосемантики, в том числе распознавания аккордов в музыке, является важной задачей в области музыкального информационного восстановления (Music Information Retrieval, MIR). Одной из трудностей в этой области является наличие достаточного количества художественно незащищенных аудиозаписей, необходимых для обучения и оценки моделей. Многие работы используют музыкальные композиции, созданные человеком, но это может привести к проблемам с авторскими правами. В этом контексте авторы рассматривают возможность использования искуственно сгенерированных аудиозаписей для обучения моделей распознавания аккордов. ## Метод Авторы сравнивают две модели свёрточных трансфоррмеров для распознавания аккордов в аудиозаписях: Transformer-based Chord Recognition (TCR) и Transformer-based Chord Recognition with Attention (TCRA). Обе модели обучаются на смеси данных из Artificial Audio Multitracks (AAM), Schubert's Winterreise Dataset и McGill Billboard Dataset. Данные AAM генерируются специальным алгоритмом, который моделирует музыку на основе теории музыки, включая информацию о нотах, темпе и аккордах. Модели оцениваются по метрикам Root, MajMin и Chord Content Metric (CCM). ## Результаты Эксперименты показали, что модель TCRA демонстрирует лучшую точность в распознавании аккордов по сравнению с TCR. Также выяснилось, что искусственно сгенерированные данные AAM могут быть полезны для расширения меньших наборов данных, созданных человеком, или даже самостоятельно использованы для обучения моделей, предсказывающих аккорды в поп-музыке, если других данных нет. Однако AAM имеют ограничения в симуляции сложных музыкальных структур, которые могут влиять на точность распознавания в определённых ситуациях. ## Значимость Результаты имеют большое значение для области MIR, поскольку демонстрируют возможность использования искусственно сгенерированных данных в моделировании и распознавании аккордов. Это может существенно снизить затраты и трудоемкость на получение тренировочных данных. Важность такого подхода усиливается в ситуациях, когда доступ к широкому набору художественных записей ограничен, например, из-за авторских прав. ## Выводы Результаты экспериментов подтверждают, что искусственно сгенерированные данные могут быть эффективными инструментами для обучения моделей распознавания аккордов, особенно когда естественные данные недоступны. Будущие исследования могут сфокусироваться на улучшении генерации искусственных записей, чтобы преодолеть текущие ограничения в симуляции сложных музыкальных структур.

Abstract

One of the challenging problems in Music Information Retrieval is the acquisition of enough non-copyrighted audio recordings for model training and evaluation. This study compares two Transformer-based neural network models for chord sequence recognition in audio recordings and examines the effectiveness of using an artificially generated dataset for this purpose. The models are trained on various combinations of Artificial Audio Multitracks (AAM), Schubert's Winterreise Dataset, and the McGill Billboard Dataset and evaluated with three metrics: Root, MajMin and Chord Content Metric (CCM). The experiments prove that even though there are certainly differences in complexity and structure between artificially generated and human-composed music, the former can be useful in certain scenarios. Specifically, AAM can enrich a smaller training dataset of music composed by a human or can even be used as a standalone training set for a model that predicts chord sequences in pop music, if no other data is available.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Training chord recognition models on artificially generated audio

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация