Music Genre Classification Using Machine Learning Techniques

2509.01762v1 cs.SD, cs.LG 2025-09-05

Авторы:

Alokit Mishra, Ryyan Akhtar

Резюме на русском

## Контекст Музыкальное жанровое классификационное исследование является важной областью звукового сигнала обработки. Однако существуют значительные проблемы, такие как несогласованность в выборке музыки, несогласованность в характеристиках жанров, и проблемы с оценкой удовлетворенности результатов. Технологии машинного обучения предлагают новые возможности для решения этих проблем, но зачастую требуют больших объемов данных, что может быть проблематично для небольших датасетов. Это исследование фокусируется на использовании машинного обучения для автоматической классификации жанров музыки, сравнивая классические методы и глубокие нейронные сети. ## Метод Для этого исследования был выбран датасет GTZAN, содержащий 1000 музыкальных фрагментов, разделенных на 10 жанров. Были рассмотрены классические алгоритмы, такие как Support Vector Machine (SVM), и глубинные нейронные сети, такие как Convolutional Neural Network (CNN). Для классических методов был использован ручной функционал извлечения признаков, включая Mel-frequency cepstral coefficients (MFCCs) и количество характеристик лакун. Для CNN была применена архитектура, включающую технологии convolutional layers, max-pooling, и dense layers. Таким образом, были сравнены два подхода для классификации жанров музыки. ## Результаты Проведенные эксперименты показали, что SVM, обученная на ручном признаковом пространстве, демонстрирует более высокую точность классификации по сравнению с CNN. Это может быть объяснено тем, что CNN необходим большой объем данных для обучения, что может быть недостаточно в данном случае. В то же время, CNN продемонстрировал более высокую скорость работы и гибкость, но имел более высокий риск переобучения. Таким образом, SVM показался более эффективным в этой конкретной задаче. ## Значимость Результаты этого исследования могут быть использованы в различных областях, таких как рекомендательные системы, лицензирование музыки, и анализ музыкальных коллекций. Этот подход может быть использован для улучшения точности классификации с меньшими объемами данных. Кроме того, этот метод может быть использован для улучшения систем распознавания жанров, которые требуют быстрой обработки. Это означает, что данный подход может сыграть важную роль в развитии технологий музыкального анализа. ## Выводы В итоге, исследование показало, что SVM с ручным признаковым пространством может дать более высокую точность классификации по сравнению с CNN, особенно в условиях небольших датасетов. Однако CNN также показал свою значимость, демонстрируя более высокую скорость и гибкость. Будущие исследования могут сфоку

Abstract

This paper presents a comparative analysis of machine learning methodologies for automatic music genre classification. We evaluate the performance of classical classifiers, including Support Vector Machines (SVM) and ensemble methods, trained on a comprehensive set of hand-crafted audio features, against a Convolutional Neural Network (CNN) operating on Mel spectrograms. The study is conducted on the widely-used GTZAN dataset. Our findings demonstrate a noteworthy result: the SVM, leveraging domain-specific feature engineering, achieves superior classification accuracy compared to the end-to-end CNN model. We attribute this outcome to the data-constrained nature of the benchmark dataset, where the strong inductive bias of engineered features provides a regularization effect that mitigates the risk of overfitting inherent in high-capacity deep learning models. This work underscores the enduring relevance of traditional feature extraction in practical audio processing tasks and provides a critical perspective on the universal applicability of deep learning, especially for moderately sized datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Music Genre Classification Using Machine Learning Techniques

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация