Barwise Section Boundary Detection in Symbolic Music Using Convolutional Neural Networks

2509.16566v1 cs.SD, cs.LG, eess.AS 2025-09-24
Авторы:

Omar Eldeeb, Martin Malandro

Резюме на русском

########################## ## Контекст ########################## Music Structure Analysis (MSA) является важной областью исследований в музыкальной технике, нацеленной на то, чтобы автоматизировать анализ и структурирование музыки. Одной из ключевых задач в этой области является определение пределов музыкальных секций, которое позволяет обнаружить когда происходит переход между различными частями музыки. Несмотря на то, что звуковая модель используется для решения этой задачи, она не оптимальна для работы с символической музыкой, где доступны прямые данные о питоре, звуковой инструментации и ритме. Мотивация для данного исследования заключается в том, чтобы использовать преимущества символической музыки для повышения точности и эффективности в процессе MSA. ########################## ## Метод ########################## Для решения задачи определения пределов музыкальных секций был разработан новый подход, основанный на использовании символической музыки и глубокого обучения. Для представления музыки была разработана новая архитектура пианино-роллов с использованием трех каналов, которая преобразует MIDI-данные в 3D-представление, включая питор, ритм и инструментацию. Для обучения модели использовалась новая многоканальная архитектура сверточных нейронных сетей, которая включает в себя багетные слои для предсказания вероятности пределов музыкальных секций в заданном окне. Для улучшения точности данная модель была обучена на новом датасете, полученном из Lakh MIDI Dataset, и содержащем 6134 MIDI-файлов. ########################## ## Результаты ########################## Модель была протестирована на новом датасете, полученном из Lakh MIDI Dataset. Она показала высокую точность, получив F1-меру в 0.77. Это значительно улучшило результаты предыдущих методов: аудио-базированных супервизированных методов (F1 = 0.55) и блочного сегментационного аудио-метода (CBM, F1 = 0.46). Также была проведена сравнительная оценка с другими существующими методами, подтвердив высокую эффективность нового подхода. ########################## ## Значимость ########################## Результаты этого исследования могут быть применимы в различных областях музыкальных технологий, включая генерацию музыки, синтез и анализ музыки. Новый подход предоставляет более точную и эффективную альтернативу существующим методам, основанным на звуковых данных. Его можно использовать для улучшения систем Музыкального Анализа, повышения точности в синтезе музыки и поиска новых способов анализа музыкального контента. ########################## ## Выводы ########################## Мы представили новую систему для определения пределов музыкальных секций в символической музыке, использующую сверточные нейронные сети. Модель демонстриру

Abstract

Current methods for Music Structure Analysis (MSA) focus primarily on audio data. While symbolic music can be synthesized into audio and analyzed using existing MSA techniques, such an approach does not exploit symbolic music's rich explicit representation of pitch, timing, and instrumentation. A key subproblem of MSA is section boundary detection-determining whether a given point in time marks the transition between musical sections. In this paper, we study automatic section boundary detection for symbolic music. First, we introduce a human-annotated MIDI dataset for section boundary detection, consisting of metadata from 6134 MIDI files that we manually curated from the Lakh MIDI dataset. Second, we train a deep learning model to classify the presence of section boundaries within a fixed-length musical window. Our data representation involves a novel encoding scheme based on synthesized overtones to encode arbitrary MIDI instrumentations into 3-channel piano rolls. Our model achieves an F1 score of 0.77, improving over the analogous audio-based supervised learning approach and the unsupervised block-matching segmentation (CBM) audio approach by 0.22 and 0.31, respectively. We release our dataset, code, and models.

Ссылки и действия