Investigating Modality Contribution in Audio LLMs for Music

2509.20641v1 cs.LG, cs.SD 2025-09-27
Авторы:

Giovana Morais, Magdalena Fuentes

Резюме на русском

## Контекст В последние годы появились значительные достижения в области текстовых языковых моделей, включая Large Language Models (LLMs), которые проявляют высокую точность в обработке текста. Однако говорящие модели, взаимодействующие с звуковыми данными, по-прежнему представляют собой сложную техническую проблему. Audio Large Language Models (Audio LLMs) предназначены для обеспечения естественных диалогов об музыке, но остается неясным, насколько эти модели полагаются на аудиоданные при принятии решений. Несмотря на их высокую точность в текстовых задачах, некоторые бенчмарки показывают, что модели могут опираться на текстовые признаки даже при работе с аудио, что подводит к вопросу: воспринимают ли модели действительно аудио, или же опираются лишь на текстовые знания? Данная работа стремится изучить этот вопрос, определив уровень вклада каждой модальности во взаимодействии. ## Метод Для исследования вклада модальностей в Audio LLMs воспользовались MM-SHAP, фреймворком, основанным на теории Шепле, который предоставляет показатели, не зависящие от точности моделей. Метод работает путем вычисления относительного вклада каждой модальности в вывод модели, что позволяет проанализировать, насколько высок уровень вклада аудиоданных в процесс принятия решений. Модели, которые были проанализированы в рамках экспериментов, были протестированы на MuChoMusic, бенчмарке, опирающемся на задачи по музыкальным диалогам. Эта методика позволила получить четкие показатели относительного вклада каждой модальности в процессе работы модели. ## Результаты Экспериментальные результаты показали, что высокоточная модель в значительной степени полагается на текстовые признаки при ответов на вопросы. Тем не менее, детальный анализ показал, что даже при таком поведении, модели могут успешно определять и ключевые события звука, что указывает на то, что аудио не игнорируется в принятии решений. Таким образом, данные результаты указывают на то, что, хотя текст имеет значительный вклад, аудио модальность, хотя и в меньшей степени, все же привлекается в процесс. Этот анализ был впервые проведен в контексте Audio LLMs, и он по высокой степени способствует развитию раздела говорящих и интерпретируемых моделей. ## Значимость Результаты работы имеют важное значение в сфере говорящих технологий и моделей, взаимодействующих с звуковыми данными. Эти модели могут быть применены в музыкальной аналитике, рекомендациях музыки, персонализации контента и других областях. Изучение вклада модальностей позволяет повысить транспарентность в работе Audio LLMs, что в свою очередь может привести к улучшенной надежности и пониманию пользователями. В

Abstract

Audio Large Language Models (Audio LLMs) enable human-like conversation about music, yet it is unclear if they are truly listening to the audio or just using textual reasoning, as recent benchmarks suggest. This paper investigates this issue by quantifying the contribution of each modality to a model's output. We adapt the MM-SHAP framework, a performance-agnostic score based on Shapley values that quantifies the relative contribution of each modality to a model's prediction. We evaluate two models on the MuChoMusic benchmark and find that the model with higher accuracy relies more on text to answer questions, but further inspection shows that even if the overall audio contribution is low, models can successfully localize key sound events, suggesting that audio is not entirely ignored. Our study is the first application of MM-SHAP to Audio LLMs and we hope it will serve as a foundational step for future research in explainable AI and audio.

Ссылки и действия