Revisiting Meter Tracking in Carnatic Music using Deep Learning Approaches
2509.11241v1
cs.SD, cs.LG, eess.AS
2025-09-17
Авторы:
Satyajeet Prabhu
Резюме на русском
## Контекст
Метер трекинг (Beat and Downbeat Tracking) является относительно недавной областью исследований в сфере Music Information Retrieval (MIR). Он представляет собой задачу определения настроения и начала каждого такона (beat and downbeat) в музыкальном фрагменте, которая играет ключевую роль в понимании и анализе музыки. Несмотря на то, что дебийн-аппаратура и традиционные сигнальные процессинговые методы были давно заменены глубокими нейросетевыми моделями в Western Eurogenetic genres, где имеются большие аннотированные наборы данных, такая переливательная ситуация не может быть отмечена в отношении музыки Индийского подстрайка, такой как Карнатическая музыка. Этот уникальный и фастичный жанр характеризуется сложным ритмическим устройством и разными метрическими структурами (таласами). Хотя DBN-модели были успешно применены для трекинга таласов в Карнатической музыке, работы по использованию современных deep learning моделей в этой области остаются недостаточно изученными.
## Метод
В данном исследовании проводится сравнительный анализ двух моделей метера трекинга: Temporal Convolutional Network (TCN) и Beat This!, на Carnatic Music Rhythm (CMR$_f$) dataset. TCN — это лёгкая архитектура, оптимизированная для ритмов латинских музыкальных жанров, в то время как Beat This! является transformer-based моделью, разработанной для широкого стилистического покрытия без необходимости дополнительной пост-обработки. Модели были сравниваны с DBN-моделью, которая была использована в предыдущих исследованиях. Выборка данных включает 60 треков, каждый аннотированный вручную. Также были применены музыкально обоснованные параметры, такие как размер окна, скорость подачи, и методы метода fine-tuning на Carnatic data.
## Результаты
Результаты экспериментов показали, что раннее использованные DBN-модели, хотя и показали неплохой результат, не всегда существенно превосходят TCN и Beat This!, когда они подвергаются transfer learning. Особенно Beat This! показал очень высокую точность в задаче метера трекинга, превзойдя DBN на некоторых показателях. Fine-tuning, в свою очередь, также продемонстрировал положительный эффект, улучшая точность на несколько процентов. Эти результаты указывают, что modern deep learning architectures могут быть эффективно применены к данной трудной задаче, даже в случае недостатка больших аннотированных наборов данных.
## Значимость
Результаты этого исследования имеют важное значение для нескольких областей. Во-первых, они показывают, что существующие deep learning модели могут быть успешно применены для трекинга таласов в музыке Карнатического типа, что создает возможность для более широкого применения таких моделей в underrepresented traditions. Во-вторых, они поднимают вопрос о возможности fine-tuning и дополнительных музыкальных п
Abstract
Beat and downbeat tracking, jointly referred to as Meter Tracking, is a
fundamental task in Music Information Retrieval (MIR). Deep learning models
have far surpassed traditional signal processing and classical machine learning
approaches in this domain, particularly for Western (Eurogenetic) genres, where
large annotated datasets are widely available. These systems, however, perform
less reliably on underrepresented musical traditions. Carnatic music, a rich
tradition from the Indian subcontinent, is renowned for its rhythmic intricacy
and unique metrical structures (t\=alas). The most notable prior work on meter
tracking in this context employed probabilistic Dynamic Bayesian Networks
(DBNs). The performance of state-of-the-art (SOTA) deep learning models on
Carnatic music, however, remains largely unexplored.
In this study, we evaluate two models for meter tracking in Carnatic music:
the Temporal Convolutional Network (TCN), a lightweight architecture that has
been successfully adapted for Latin rhythms, and Beat This!, a
transformer-based model designed for broad stylistic coverage without the need
for post-processing. Replicating the experimental setup of the DBN baseline on
the Carnatic Music Rhythm (CMR$_f$) dataset, we systematically assess the
performance of these models in a directly comparable setting. We further
investigate adaptation strategies, including fine-tuning the models on Carnatic
data and the use of musically informed parameters. Results show that while
off-the-shelf models do not always outperform the DBN, their performance
improves substantially with transfer learning, matching or surpassing the
baseline. These findings indicate that SOTA deep learning models can be
effectively adapted to underrepresented traditions, paving the way for more
inclusive and broadly applicable meter tracking systems.
Ссылки и действия
Дополнительные ресурсы: