ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following
2509.23350v1
cs.SD, cs.AI
2025-10-01
Авторы:
Jiahao Zhao, Yunjia Li, Wei Li, Kazuyoshi Yoshii
Резюме на русском
## Контекст
Современные large language models (LLM) достигли впечатляющих результатов в обработке текстовых данных и генерации текста. Однако их потенциал в области знаний о музыкальной нотной записи и интеллектуальной обработки музыкальных символов остается значительно неизученным. Несмотря на то, что текстовые музыкальные символы (например, в формате ABC notation) широко используются в генерации музыки, их использование для решения задач понимания и принятия решений остается редким. Это приводит к значительной недостаточности в исследованиях, связанных с тестированием и реализацией моделей, которые могут обрабатывать такие символы. Для заполнения этой лакуны мы предлагаем ABC-Eval — первый открытой кодовой базы бенчмарка, призванного измерить способности текстовых LLM понимать и применять знания в условиях символьной музыки.
## Метод
ABC-Eval представляет собой набор тестовых семплов, состоящий из 1086 задач, разделенных на 10 подзадач. Эти задачи относятся к различным уровням сложности — от базового разбора музыкальной синтаксической конструкции до распространенных сценариев, требующих сопоставления музыки с текстовым описанием. Мы изучали использование семи современных LLM для проверки их производительности в различных сценариях. Наша модель использует уникальный подход к оценке, который включает в себя проверку точности, относительной производительности и возможности моделей обрабатывать различные аспекты музыкальных символов.
## Результаты
Наши эксперименты показали, что хотя LLM-модели демонстрируют высокий уровень производительности на общих задачах текстового понимания, они столкнулись с серьезными ограничениями при работе с символьной музыкой. Например, модели показали незначительные результаты при разборе сложных синтаксических структур и при применении музыкальных знаний в контексте дальнейших задач. Несмотря на это, результаты были достаточно стабильными в разных подзадачах, что демонстрирует надежность нашего бенчмарка и его применимость для дальнейших исследований.
## Значимость
ABC-Eval открывает новые возможности для исследований в области музыкального понимания и текстового управдывания в текстах ABC notation. Он может использоваться для разработки моделей, которые обладают более высоким уровнем понимания музыкальных синтаксических конструкций и текстовых комманд. Этот бенчмарк не только может привести к улучшению моделей, но и может стать дополнительным инструментом для задач, требующих текстового понимания в контексте музыки.
## Выводы
ABC-Eval представляет собой значительную добавку в область исследований по текстовым LLM в сфере музыкального понима
Abstract
As large language models continue to develop, the feasibility and
significance of text-based symbolic music tasks have become increasingly
prominent. While symbolic music has been widely used in generation tasks, LLM
capabilities in understanding and reasoning about symbolic music remain largely
underexplored. To address this gap, we propose ABC-Eval, the first open-source
benchmark dedicated to the understanding and instruction-following capabilities
in text-based ABC notation scores. It comprises 1,086 test samples spanning 10
sub-tasks, covering scenarios from basic musical syntax comprehension to
complex sequence-level reasoning. Such a diverse scope poses substantial
challenges to models' ability to handle symbolic music tasks. We evaluated
seven state-of-the-art LLMs on ABC-Eval, and the results reveal notable
limitations in existing models' symbolic music processing capabilities.
Furthermore, the consistent performance of individual baselines across
different sub-tasks supports the reliability of our benchmark.
Ссылки и действия
Дополнительные ресурсы: