Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models
2509.18816v1
cs.SD, cs.CL, cs.MM, eess.AS
2025-09-25
Авторы:
Junyu Wang, Ziyang Ma, Zhengding Luo, Tianrui Wang, Meng Ge, Xiaobao Wang, Longbiao Wang
Резюме на русском
#### Контекст
Large Audio-Language Models (LALMs) являются важной компонентой интеллектуальных систем, объединяющих аудио- и текстовые данные. Однако они сталкиваются с проблемой несбалансированного внимания к аудио- и текстовым сигналам, когда модели придают больший вес текстовым данным, чем акустическим. Это особенно заметно в слоях мультимодального слияния в архитектуре Transformer. Такой биаз ограничивает модели в полноценном использовании акустических признаков, что приводит к ухудшению результатов на задачах аудио-разумания. Наша мотивация заключается в том, чтобы исправить этот недостаток и улучшить способность моделей к аудио-разуманию.
#### Метод
Мы предлагаем **MATA** (More Attention To Audio) — метод, который динамически увеличивает внимание моделей к аудио-сигналам в самом сердце самоп paяженияй Transformer. Этот метод не требует дополнительных параметров или вычислительных ресурсов. Он вступает в действие после расчета сырого внимания в последней токене в каждом слое, акцентируя внимание на аудио-токенах. Такой подход позволяет модели сфокусироваться на актуальных акустических сигналах без ухудшения производительности или увеличения сложности модели.
#### Результаты
Мы оценили эффективность MATA на двух бенчмарках: MMAU (Multimodal Audio Understanding) и MMAR (Multimodal Audio Reasoning). Результаты показали, что MATA существенно повышает производительность моделей, особенно в задачах, требующих аккуратного анализа акустических сигналов. На MMAR MATA позволил открытому модели достичь результатов, превышающих Gemini 2.0 Flash — первый такой случай в истории. Эти результаты указывают на то, что MATA эффективно компенсирует биаз внимания и улучшает умения моделей к аудио-разуманию.
#### Значимость
Метод MATA может применяться в различных областях, где важно понимание аудио-текстовых сигналов, таких как распознавание речи, аудио-транскрибирование и аудио-сегментация. Он предоставляет существенные преимущества по сравнению с традиционными подходами, такими как уменьшение вычислительной нагрузки и улучшение точности. Мы видим в подходе MATA перспективную технологию для развития мультимодальных моделей, обеспечивающую более балансированное и эффективное обработку аудио-текстовых данных.
#### Выводы
Метод MATA доказал свою эффективность в решении проблемы несбалансированного внимания в LALMs. Он позволил существенно улучшить результаты моделей на задачах аудио-разумания, не требуя дополнительных ресурсов. Мы планируем продолжить работу над улучшением метода, в том числе его применением к другим моделям и задачам, а также изучением динамических методов регулирования внимания в раз
Abstract
Large Audio-Language Models (LALMs) often suffer from audio-textual attention
imbalance, prioritizing text over acoustic information, particularly in the
multi-modal fusion layers of the Transformer architecture. This bias hinders
their ability to fully utilize acoustic cues, causing suboptimal performance on
audio reasoning tasks. To mitigate this, we propose \textbf{MATA}, a novel
training-free method that dynamically pushes LALMs to pay \textbf{M}ore
\textbf{A}ttention \textbf{T}o \textbf{A}udio tokens within the self-attention
mechanism. Specifically, MATA intervenes post raw attention scoring, targeting
only the last token in intermediate layers without introducing additional
parameters or computational overhead. Experiments on the MMAU and MMAR
benchmarks confirm MATA's effectiveness, with consistent performance gains.
Notably, on MMAR, MATA enables an open-source model to surpass the proprietary
Gemini 2.0 Flash for the first time. Our work provides an efficient solution to
mitigate attention bias and opens a new research direction for enhancing the
audio-processing capabilities of multi-modal models.