Training chord recognition models on artificially generated audio
2508.05878v1
cs.SD, cs.LG
2025-08-12
Авторы:
Martyna Majchrzak, Jacek Mańdziuk
Резюме на русском
## Контекст
Исследование аудиосемантики, в том числе распознавания аккордов в музыке, является важной задачей в области музыкального информационного восстановления (Music Information Retrieval, MIR). Одной из трудностей в этой области является наличие достаточного количества художественно незащищенных аудиозаписей, необходимых для обучения и оценки моделей. Многие работы используют музыкальные композиции, созданные человеком, но это может привести к проблемам с авторскими правами. В этом контексте авторы рассматривают возможность использования искуственно сгенерированных аудиозаписей для обучения моделей распознавания аккордов.
## Метод
Авторы сравнивают две модели свёрточных трансфоррмеров для распознавания аккордов в аудиозаписях: Transformer-based Chord Recognition (TCR) и Transformer-based Chord Recognition with Attention (TCRA). Обе модели обучаются на смеси данных из Artificial Audio Multitracks (AAM), Schubert's Winterreise Dataset и McGill Billboard Dataset. Данные AAM генерируются специальным алгоритмом, который моделирует музыку на основе теории музыки, включая информацию о нотах, темпе и аккордах. Модели оцениваются по метрикам Root, MajMin и Chord Content Metric (CCM).
## Результаты
Эксперименты показали, что модель TCRA демонстрирует лучшую точность в распознавании аккордов по сравнению с TCR. Также выяснилось, что искусственно сгенерированные данные AAM могут быть полезны для расширения меньших наборов данных, созданных человеком, или даже самостоятельно использованы для обучения моделей, предсказывающих аккорды в поп-музыке, если других данных нет. Однако AAM имеют ограничения в симуляции сложных музыкальных структур, которые могут влиять на точность распознавания в определённых ситуациях.
## Значимость
Результаты имеют большое значение для области MIR, поскольку демонстрируют возможность использования искусственно сгенерированных данных в моделировании и распознавании аккордов. Это может существенно снизить затраты и трудоемкость на получение тренировочных данных. Важность такого подхода усиливается в ситуациях, когда доступ к широкому набору художественных записей ограничен, например, из-за авторских прав.
## Выводы
Результаты экспериментов подтверждают, что искусственно сгенерированные данные могут быть эффективными инструментами для обучения моделей распознавания аккордов, особенно когда естественные данные недоступны. Будущие исследования могут сфокусироваться на улучшении генерации искусственных записей, чтобы преодолеть текущие ограничения в симуляции сложных музыкальных структур.
Abstract
One of the challenging problems in Music Information Retrieval is the
acquisition of enough non-copyrighted audio recordings for model training and
evaluation. This study compares two Transformer-based neural network models for
chord sequence recognition in audio recordings and examines the effectiveness
of using an artificially generated dataset for this purpose. The models are
trained on various combinations of Artificial Audio Multitracks (AAM),
Schubert's Winterreise Dataset, and the McGill Billboard Dataset and evaluated
with three metrics: Root, MajMin and Chord Content Metric (CCM). The
experiments prove that even though there are certainly differences in
complexity and structure between artificially generated and human-composed
music, the former can be useful in certain scenarios. Specifically, AAM can
enrich a smaller training dataset of music composed by a human or can even be
used as a standalone training set for a model that predicts chord sequences in
pop music, if no other data is available.
Ссылки и действия
Дополнительные ресурсы: