📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models

2025-09-25

Авторы:

Junyu Wang, Ziyang Ma, Zhengding Luo, Tianrui Wang, Meng Ge, Xiaobao Wang, Longbiao Wang

#### Контекст Large Audio-Language Models (LALMs) являются важной компонентой интеллектуальных систем, объединяющих аудио- и текстовые данные. Однако они сталкиваются с проблемой несбалансированного внимания к аудио- и текстовым сигналам, когда модели придают больший вес текстовым данным, чем акустическим. Это особенно заметно в слоях мультимодального слияния в архитектуре Transformer. Такой биаз ограничивает модели в полноценном использовании акустических признаков, что приводит к ухудшению результатов на задачах аудио-разумания. Наша мотивация заключается в том, чтобы исправить этот недостаток и улучшить способность моделей к аудио-разуманию. #### Метод Мы предлагаем **MATA** (More Attention To Audio) — метод, который динамически увеличивает внимание моделей к аудио-сигналам в самом сердце самоп paяженияй Transformer. Этот метод не требует дополнительных параметров или вычислительных ресурсов. Он вступает в действие после расчета сырого внимания в последней токене в каждом слое, акцентируя внимание на аудио-токенах. Такой подход позволяет модели сфокусироваться на актуальных акустических сигналах без ухудшения производительности или увеличения сложности модели. #### Результаты Мы оценили эффективность MATA на двух бенчмарках: MMAU (Multimodal Audio Understanding) и MMAR (Multimodal Audio Reasoning). Результаты показали, что MATA существенно повышает производительность моделей, особенно в задачах, требующих аккуратного анализа акустических сигналов. На MMAR MATA позволил открытому модели достичь результатов, превышающих Gemini 2.0 Flash — первый такой случай в истории. Эти результаты указывают на то, что MATA эффективно компенсирует биаз внимания и улучшает умения моделей к аудио-разуманию. #### Значимость Метод MATA может применяться в различных областях, где важно понимание аудио-текстовых сигналов, таких как распознавание речи, аудио-транскрибирование и аудио-сегментация. Он предоставляет существенные преимущества по сравнению с традиционными подходами, такими как уменьшение вычислительной нагрузки и улучшение точности. Мы видим в подходе MATA перспективную технологию для развития мультимодальных моделей, обеспечивающую более балансированное и эффективное обработку аудио-текстовых данных. #### Выводы Метод MATA доказал свою эффективность в решении проблемы несбалансированного внимания в LALMs. Он позволил существенно улучшить результаты моделей на задачах аудио-разумания, не требуя дополнительных ресурсов. Мы планируем продолжить работу над улучшением метода, в том числе его применением к другим моделям и задачам, а также изучением динамических методов регулирования внимания в раз

Annotation:

Large Audio-Language Models (LALMs) often suffer from audio-textual attention imbalance, prioritizing text over acoustic information, particularly in the multi-modal fusion layers of the Transformer architecture. This bias hinders their ability to fully utilize acoustic cues, causing suboptimal performance on audio reasoning tasks. To mitigate this, we propose \textbf{MATA}, a novel training-free method that dynamically pushes LALMs to pay \textbf{M}ore \textbf{A}ttention \textbf{T}o \textbf{A}u...

ID: 2509.18816v1 cs.SD, cs.CL, cs.MM, eess.AS

arXiv PDF

📄 Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

2025-08-13

Авторы:

Shu Wu, Chenxing Li, Wenfu Wang, Hao Zhang, Hualei Wang, Meng Yu, Dong Yu

## Контекст В последние годы произошли значительные прогрессы в области бо LARMs (large audio language models), которые позволили расширить возможности технического зрения, работающих с аудио и текстовыми данными. Однако, несмотря на эти успехи, LARMs еще не достигли на уровне людей в понимании и обработке аудио-текстовых данных, особенно в случае задач аудио-ориентированного вопроса-ответа. Основная проблема заключается в том, что LARMs не всегда могут адекватно адаптироваться к сложности задачи, что приводит к несогласованности и неэффективности в процессе рассуждения. Необходима подходящая модель, которая бы улучшила гибкость, консистентность и эффективность в процессе рассуждения в LARMs. ## Метод Мы предлагаем **Audio-Thinker**, фреймворк, основанный на reinforcement learning (RL), чтобы улучшить процесс рассуждения в LARMs. Модель адаптирует свои стратегии рассуждения в зависимости от сложности задачи с помощью adaptive think accuracy reward. Для того, чтобы оценить качество и консистентность процесса рассуждения, мы внедрили внешний reward model. Также применяются think-based rewards, которые помогают модели различать пути рассуждения, которые являются верными, от тех, которые являются неверными. Эта структура позволяет модели динамически регулировать свои рассуждения, чтобы достичь более точных и консистентных результатов. ## Результаты Мы проверили Audio-Thinker на нескольких бенчмарк-задачах в аудио-ориентированном вопросе-ответе. Модель показала существенные улучшения в отношении качества рассуждения и его согласованности по сравнению с другими рассуждающими LARMs. Наши эксперименты показали, что Audio-Thinker не только повышает точность ответов, но и улучшает способность модели адаптироваться к различным сложностям задач. ## Значимость Audio-Thinker может быть применен в различных областях, таких как аудио-ориентированный поиск, вопрос-ответ в системах умных домов, и системы автоматического сопровождения в транспортных системах. Он предлагает более эффективный и консистентный подход к аудио-текстовой обработке, что может иметь значительное влияние на развитие ИИ в области рассуждения. ## Выводы Audio-Thinker оказался эффективным для улучшения рассуждений в LARMs, существенно повысив точность и консистентность в аудио-ориентированных задачах. Мы планируем дальнейшие исследования для улучшения модели, включая расширение возможностей для более сложных задач и интеграцию других моделей для улучшения ее гибкости и скорости работы.

Annotation:

Recent advancements in large language models, multimodal large language models, and large audio language models (LALMs) have significantly improved their reasoning capabilities through reinforcement learning with rule-based rewards. However, the explicit reasoning process has yet to show significant benefits for audio question answering, and effectively leveraging deep reasoning remains an open challenge, with LALMs still falling short of human-level auditory-language reasoning. To address these...

ID: 2508.08039v2 cs.SD, cs.CL, cs.MM, eess.AS

arXiv PDF