Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
2508.20665v1
cs.SD, cs.AI, cs.MM
2025-08-30
Авторы:
Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song
Резюме на русском
#### Контекст
Современные модели генерации символьной музыки, такие как авторегрессионные и иерархические авторегрессионные архитектуры, основываются на моделировании символьной музыки как последовательности атрибутов токенов с управляющими зависимостями в одном направлении. Это предположение о взаимосвязи атрибутов нот лежит в основе многих моделей, но не всегда соответствует реальности. Наблюдается, что меняя начальный атрибут в модели, результаты остаются схожи, что указывает на то, что атрибуты нот являются скорее параллельными и неупорядоченными наборами, чем последовательностью. В этом контексте возникает потребность в модели, которая учитывает эти параллельные атрибуты и лучше адаптируется к характеристикам музыки.
#### Метод
Мы предлагаем Amadeus — новую модель с двухуровневой архитектурой. В первом уровне используется авторегрессионная модель для генерации последовательностей нот, а во втором — бидирекциональная дискретная модель размывания для атрибутов нот. Это позволяет учитывать параллельные зависимости между атрибутами. Для улучшения точности и выразительности вводится стратегия **Music Latent Space Discriminability Enhancement** (MLSDES), которая включает в себя контрастное обучение для усиления дискриминативности музыкальных представлений. Также используется **Conditional Information Enhancement Module** (CIEM), усиливающее представление нотных векторов с помощью аттенционных механизмов. Эти модули обеспечивают более точный декодирований нот и повышают качество получаемой музыки.
#### Результаты
Мы проводили эксперименты на задачах несвязанной и условной генерации музыки. Amadeus показал значительные преимущества по сравнению со существующими моделями по критериям качества и скорости обучения. Например, она ускоряет обучение в 4 раза по сравнению с современными моделями и достигает лучших результатов по метрикам, таким как BLEU-N и METEOR. Эксперименты показали, что модель сохраняет высокий уровень детализации и точности в генерации, даже при изменении начальных атрибутов.
#### Значимость
Amadeus открывает новые возможности в области генерации музыкальных композиций. Ее можно применять для создания музыки с гибкими условиями, включая текстовую контрольную структуру, и для поиска новых стилей и структур музыкальных форм. Основное преимущество заключается в том, что Amadeus лучше адаптируется к неупорядоченным атрибутам музыки и увеличивает точность и эффективность генерации. Это делает модель полезной не только для профессионалов в области музыкальных технологий, но и для широкого круга пользователей, включая музыкантов и композиторов.
#### Вывод
Abstract
Existing state-of-the-art symbolic music generation models predominantly
adopt autoregressive or hierarchical autoregressive architectures, modelling
symbolic music as a sequence of attribute tokens with unidirectional temporal
dependencies, under the assumption of a fixed, strict dependency structure
among these attributes. However, we observe that using different attributes as
the initial token in these models leads to comparable performance. This
suggests that the attributes of a musical note are, in essence, a concurrent
and unordered set, rather than a temporally dependent sequence. Based on this
insight, we introduce Amadeus, a novel symbolic music generation framework.
Amadeus adopts a two-level architecture: an autoregressive model for note
sequences and a bidirectional discrete diffusion model for attributes. To
enhance performance, we propose Music Latent Space Discriminability Enhancement
Strategy(MLSDES), incorporating contrastive learning constraints that amplify
discriminability of intermediate music representations. The Conditional
Information Enhancement Module (CIEM) simultaneously strengthens note latent
vector representation via attention mechanisms, enabling more precise note
decoding. We conduct extensive experiments on unconditional and
text-conditioned generation tasks. Amadeus significantly outperforms SOTA
models across multiple metrics while achieving at least 4$\times$ speed-up.
Furthermore, we demonstrate training-free, fine-grained note attribute control
feasibility using our model. To explore the upper performance bound of the
Amadeus architecture, we compile the largest open-source symbolic music dataset
to date, AMD (Amadeus MIDI Dataset), supporting both pre-training and
fine-tuning.
Ссылки и действия
Дополнительные ресурсы: