Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models

2509.18816v1 cs.SD, cs.CL, cs.MM, eess.AS 2025-09-25
Авторы:

Junyu Wang, Ziyang Ma, Zhengding Luo, Tianrui Wang, Meng Ge, Xiaobao Wang, Longbiao Wang

Резюме на русском

#### Контекст Large Audio-Language Models (LALMs) являются важной компонентой интеллектуальных систем, объединяющих аудио- и текстовые данные. Однако они сталкиваются с проблемой несбалансированного внимания к аудио- и текстовым сигналам, когда модели придают больший вес текстовым данным, чем акустическим. Это особенно заметно в слоях мультимодального слияния в архитектуре Transformer. Такой биаз ограничивает модели в полноценном использовании акустических признаков, что приводит к ухудшению результатов на задачах аудио-разумания. Наша мотивация заключается в том, чтобы исправить этот недостаток и улучшить способность моделей к аудио-разуманию. #### Метод Мы предлагаем **MATA** (More Attention To Audio) — метод, который динамически увеличивает внимание моделей к аудио-сигналам в самом сердце самоп paяженияй Transformer. Этот метод не требует дополнительных параметров или вычислительных ресурсов. Он вступает в действие после расчета сырого внимания в последней токене в каждом слое, акцентируя внимание на аудио-токенах. Такой подход позволяет модели сфокусироваться на актуальных акустических сигналах без ухудшения производительности или увеличения сложности модели. #### Результаты Мы оценили эффективность MATA на двух бенчмарках: MMAU (Multimodal Audio Understanding) и MMAR (Multimodal Audio Reasoning). Результаты показали, что MATA существенно повышает производительность моделей, особенно в задачах, требующих аккуратного анализа акустических сигналов. На MMAR MATA позволил открытому модели достичь результатов, превышающих Gemini 2.0 Flash — первый такой случай в истории. Эти результаты указывают на то, что MATA эффективно компенсирует биаз внимания и улучшает умения моделей к аудио-разуманию. #### Значимость Метод MATA может применяться в различных областях, где важно понимание аудио-текстовых сигналов, таких как распознавание речи, аудио-транскрибирование и аудио-сегментация. Он предоставляет существенные преимущества по сравнению с традиционными подходами, такими как уменьшение вычислительной нагрузки и улучшение точности. Мы видим в подходе MATA перспективную технологию для развития мультимодальных моделей, обеспечивающую более балансированное и эффективное обработку аудио-текстовых данных. #### Выводы Метод MATA доказал свою эффективность в решении проблемы несбалансированного внимания в LALMs. Он позволил существенно улучшить результаты моделей на задачах аудио-разумания, не требуя дополнительных ресурсов. Мы планируем продолжить работу над улучшением метода, в том числе его применением к другим моделям и задачам, а также изучением динамических методов регулирования внимания в раз

Abstract

Large Audio-Language Models (LALMs) often suffer from audio-textual attention imbalance, prioritizing text over acoustic information, particularly in the multi-modal fusion layers of the Transformer architecture. This bias hinders their ability to fully utilize acoustic cues, causing suboptimal performance on audio reasoning tasks. To mitigate this, we propose \textbf{MATA}, a novel training-free method that dynamically pushes LALMs to pay \textbf{M}ore \textbf{A}ttention \textbf{T}o \textbf{A}udio tokens within the self-attention mechanism. Specifically, MATA intervenes post raw attention scoring, targeting only the last token in intermediate layers without introducing additional parameters or computational overhead. Experiments on the MMAU and MMAR benchmarks confirm MATA's effectiveness, with consistent performance gains. Notably, on MMAR, MATA enables an open-source model to surpass the proprietary Gemini 2.0 Flash for the first time. Our work provides an efficient solution to mitigate attention bias and opens a new research direction for enhancing the audio-processing capabilities of multi-modal models.

Ссылки и действия

Связанные статьи

Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcem...

## Контекст В последние годы произошли значительные прогрессы в области бо LARMs (large audio language models), которые...

2025-08-13