ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following

2509.23350v1 cs.SD, cs.AI 2025-10-01

Авторы:

Jiahao Zhao, Yunjia Li, Wei Li, Kazuyoshi Yoshii

Резюме на русском

## Контекст Современные large language models (LLM) достигли впечатляющих результатов в обработке текстовых данных и генерации текста. Однако их потенциал в области знаний о музыкальной нотной записи и интеллектуальной обработки музыкальных символов остается значительно неизученным. Несмотря на то, что текстовые музыкальные символы (например, в формате ABC notation) широко используются в генерации музыки, их использование для решения задач понимания и принятия решений остается редким. Это приводит к значительной недостаточности в исследованиях, связанных с тестированием и реализацией моделей, которые могут обрабатывать такие символы. Для заполнения этой лакуны мы предлагаем ABC-Eval — первый открытой кодовой базы бенчмарка, призванного измерить способности текстовых LLM понимать и применять знания в условиях символьной музыки. ## Метод ABC-Eval представляет собой набор тестовых семплов, состоящий из 1086 задач, разделенных на 10 подзадач. Эти задачи относятся к различным уровням сложности — от базового разбора музыкальной синтаксической конструкции до распространенных сценариев, требующих сопоставления музыки с текстовым описанием. Мы изучали использование семи современных LLM для проверки их производительности в различных сценариях. Наша модель использует уникальный подход к оценке, который включает в себя проверку точности, относительной производительности и возможности моделей обрабатывать различные аспекты музыкальных символов. ## Результаты Наши эксперименты показали, что хотя LLM-модели демонстрируют высокий уровень производительности на общих задачах текстового понимания, они столкнулись с серьезными ограничениями при работе с символьной музыкой. Например, модели показали незначительные результаты при разборе сложных синтаксических структур и при применении музыкальных знаний в контексте дальнейших задач. Несмотря на это, результаты были достаточно стабильными в разных подзадачах, что демонстрирует надежность нашего бенчмарка и его применимость для дальнейших исследований. ## Значимость ABC-Eval открывает новые возможности для исследований в области музыкального понимания и текстового управдывания в текстах ABC notation. Он может использоваться для разработки моделей, которые обладают более высоким уровнем понимания музыкальных синтаксических конструкций и текстовых комманд. Этот бенчмарк не только может привести к улучшению моделей, но и может стать дополнительным инструментом для задач, требующих текстового понимания в контексте музыки. ## Выводы ABC-Eval представляет собой значительную добавку в область исследований по текстовым LLM в сфере музыкального понима

Abstract

As large language models continue to develop, the feasibility and significance of text-based symbolic music tasks have become increasingly prominent. While symbolic music has been widely used in generation tasks, LLM capabilities in understanding and reasoning about symbolic music remain largely underexplored. To address this gap, we propose ABC-Eval, the first open-source benchmark dedicated to the understanding and instruction-following capabilities in text-based ABC notation scores. It comprises 1,086 test samples spanning 10 sub-tasks, covering scenarios from basic musical syntax comprehension to complex sequence-level reasoning. Such a diverse scope poses substantial challenges to models' ability to handle symbolic music tasks. We evaluated seven state-of-the-art LLMs on ABC-Eval, and the results reveal notable limitations in existing models' symbolic music processing capabilities. Furthermore, the consistent performance of individual baselines across different sub-tasks supports the reliability of our benchmark.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация