Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music

2508.20665v1 cs.SD, cs.AI, cs.MM 2025-08-30
Авторы:

Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song

Резюме на русском

#### Контекст Современные модели генерации символьной музыки, такие как авторегрессионные и иерархические авторегрессионные архитектуры, основываются на моделировании символьной музыки как последовательности атрибутов токенов с управляющими зависимостями в одном направлении. Это предположение о взаимосвязи атрибутов нот лежит в основе многих моделей, но не всегда соответствует реальности. Наблюдается, что меняя начальный атрибут в модели, результаты остаются схожи, что указывает на то, что атрибуты нот являются скорее параллельными и неупорядоченными наборами, чем последовательностью. В этом контексте возникает потребность в модели, которая учитывает эти параллельные атрибуты и лучше адаптируется к характеристикам музыки. #### Метод Мы предлагаем Amadeus — новую модель с двухуровневой архитектурой. В первом уровне используется авторегрессионная модель для генерации последовательностей нот, а во втором — бидирекциональная дискретная модель размывания для атрибутов нот. Это позволяет учитывать параллельные зависимости между атрибутами. Для улучшения точности и выразительности вводится стратегия **Music Latent Space Discriminability Enhancement** (MLSDES), которая включает в себя контрастное обучение для усиления дискриминативности музыкальных представлений. Также используется **Conditional Information Enhancement Module** (CIEM), усиливающее представление нотных векторов с помощью аттенционных механизмов. Эти модули обеспечивают более точный декодирований нот и повышают качество получаемой музыки. #### Результаты Мы проводили эксперименты на задачах несвязанной и условной генерации музыки. Amadeus показал значительные преимущества по сравнению со существующими моделями по критериям качества и скорости обучения. Например, она ускоряет обучение в 4 раза по сравнению с современными моделями и достигает лучших результатов по метрикам, таким как BLEU-N и METEOR. Эксперименты показали, что модель сохраняет высокий уровень детализации и точности в генерации, даже при изменении начальных атрибутов. #### Значимость Amadeus открывает новые возможности в области генерации музыкальных композиций. Ее можно применять для создания музыки с гибкими условиями, включая текстовую контрольную структуру, и для поиска новых стилей и структур музыкальных форм. Основное преимущество заключается в том, что Amadeus лучше адаптируется к неупорядоченным атрибутам музыки и увеличивает точность и эффективность генерации. Это делает модель полезной не только для профессионалов в области музыкальных технологий, но и для широкого круга пользователей, включая музыкантов и композиторов. #### Вывод

Abstract

Existing state-of-the-art symbolic music generation models predominantly adopt autoregressive or hierarchical autoregressive architectures, modelling symbolic music as a sequence of attribute tokens with unidirectional temporal dependencies, under the assumption of a fixed, strict dependency structure among these attributes. However, we observe that using different attributes as the initial token in these models leads to comparable performance. This suggests that the attributes of a musical note are, in essence, a concurrent and unordered set, rather than a temporally dependent sequence. Based on this insight, we introduce Amadeus, a novel symbolic music generation framework. Amadeus adopts a two-level architecture: an autoregressive model for note sequences and a bidirectional discrete diffusion model for attributes. To enhance performance, we propose Music Latent Space Discriminability Enhancement Strategy(MLSDES), incorporating contrastive learning constraints that amplify discriminability of intermediate music representations. The Conditional Information Enhancement Module (CIEM) simultaneously strengthens note latent vector representation via attention mechanisms, enabling more precise note decoding. We conduct extensive experiments on unconditional and text-conditioned generation tasks. Amadeus significantly outperforms SOTA models across multiple metrics while achieving at least 4$\times$ speed-up. Furthermore, we demonstrate training-free, fine-grained note attribute control feasibility using our model. To explore the upper performance bound of the Amadeus architecture, we compile the largest open-source symbolic music dataset to date, AMD (Amadeus MIDI Dataset), supporting both pre-training and fine-tuning.

Ссылки и действия