Barwise Section Boundary Detection in Symbolic Music Using Convolutional Neural Networks
2509.16566v1
cs.SD, cs.LG, eess.AS
2025-09-24
Авторы:
Omar Eldeeb, Martin Malandro
Резюме на русском
##########################
## Контекст
##########################
Music Structure Analysis (MSA) является важной областью исследований в музыкальной технике, нацеленной на то, чтобы автоматизировать анализ и структурирование музыки. Одной из ключевых задач в этой области является определение пределов музыкальных секций, которое позволяет обнаружить когда происходит переход между различными частями музыки. Несмотря на то, что звуковая модель используется для решения этой задачи, она не оптимальна для работы с символической музыкой, где доступны прямые данные о питоре, звуковой инструментации и ритме. Мотивация для данного исследования заключается в том, чтобы использовать преимущества символической музыки для повышения точности и эффективности в процессе MSA.
##########################
## Метод
##########################
Для решения задачи определения пределов музыкальных секций был разработан новый подход, основанный на использовании символической музыки и глубокого обучения. Для представления музыки была разработана новая архитектура пианино-роллов с использованием трех каналов, которая преобразует MIDI-данные в 3D-представление, включая питор, ритм и инструментацию. Для обучения модели использовалась новая многоканальная архитектура сверточных нейронных сетей, которая включает в себя багетные слои для предсказания вероятности пределов музыкальных секций в заданном окне. Для улучшения точности данная модель была обучена на новом датасете, полученном из Lakh MIDI Dataset, и содержащем 6134 MIDI-файлов.
##########################
## Результаты
##########################
Модель была протестирована на новом датасете, полученном из Lakh MIDI Dataset. Она показала высокую точность, получив F1-меру в 0.77. Это значительно улучшило результаты предыдущих методов: аудио-базированных супервизированных методов (F1 = 0.55) и блочного сегментационного аудио-метода (CBM, F1 = 0.46). Также была проведена сравнительная оценка с другими существующими методами, подтвердив высокую эффективность нового подхода.
##########################
## Значимость
##########################
Результаты этого исследования могут быть применимы в различных областях музыкальных технологий, включая генерацию музыки, синтез и анализ музыки. Новый подход предоставляет более точную и эффективную альтернативу существующим методам, основанным на звуковых данных. Его можно использовать для улучшения систем Музыкального Анализа, повышения точности в синтезе музыки и поиска новых способов анализа музыкального контента.
##########################
## Выводы
##########################
Мы представили новую систему для определения пределов музыкальных секций в символической музыке, использующую сверточные нейронные сети. Модель демонстриру
Abstract
Current methods for Music Structure Analysis (MSA) focus primarily on audio
data. While symbolic music can be synthesized into audio and analyzed using
existing MSA techniques, such an approach does not exploit symbolic music's
rich explicit representation of pitch, timing, and instrumentation. A key
subproblem of MSA is section boundary detection-determining whether a given
point in time marks the transition between musical sections. In this paper, we
study automatic section boundary detection for symbolic music. First, we
introduce a human-annotated MIDI dataset for section boundary detection,
consisting of metadata from 6134 MIDI files that we manually curated from the
Lakh MIDI dataset. Second, we train a deep learning model to classify the
presence of section boundaries within a fixed-length musical window. Our data
representation involves a novel encoding scheme based on synthesized overtones
to encode arbitrary MIDI instrumentations into 3-channel piano rolls. Our model
achieves an F1 score of 0.77, improving over the analogous audio-based
supervised learning approach and the unsupervised block-matching segmentation
(CBM) audio approach by 0.22 and 0.31, respectively. We release our dataset,
code, and models.
Ссылки и действия
Дополнительные ресурсы: