Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

2508.08039v2 cs.SD, cs.CL, cs.MM, eess.AS 2025-08-13
Авторы:

Shu Wu, Chenxing Li, Wenfu Wang, Hao Zhang, Hualei Wang, Meng Yu, Dong Yu

Резюме на русском

## Контекст В последние годы произошли значительные прогрессы в области бо LARMs (large audio language models), которые позволили расширить возможности технического зрения, работающих с аудио и текстовыми данными. Однако, несмотря на эти успехи, LARMs еще не достигли на уровне людей в понимании и обработке аудио-текстовых данных, особенно в случае задач аудио-ориентированного вопроса-ответа. Основная проблема заключается в том, что LARMs не всегда могут адекватно адаптироваться к сложности задачи, что приводит к несогласованности и неэффективности в процессе рассуждения. Необходима подходящая модель, которая бы улучшила гибкость, консистентность и эффективность в процессе рассуждения в LARMs. ## Метод Мы предлагаем **Audio-Thinker**, фреймворк, основанный на reinforcement learning (RL), чтобы улучшить процесс рассуждения в LARMs. Модель адаптирует свои стратегии рассуждения в зависимости от сложности задачи с помощью adaptive think accuracy reward. Для того, чтобы оценить качество и консистентность процесса рассуждения, мы внедрили внешний reward model. Также применяются think-based rewards, которые помогают модели различать пути рассуждения, которые являются верными, от тех, которые являются неверными. Эта структура позволяет модели динамически регулировать свои рассуждения, чтобы достичь более точных и консистентных результатов. ## Результаты Мы проверили Audio-Thinker на нескольких бенчмарк-задачах в аудио-ориентированном вопросе-ответе. Модель показала существенные улучшения в отношении качества рассуждения и его согласованности по сравнению с другими рассуждающими LARMs. Наши эксперименты показали, что Audio-Thinker не только повышает точность ответов, но и улучшает способность модели адаптироваться к различным сложностям задач. ## Значимость Audio-Thinker может быть применен в различных областях, таких как аудио-ориентированный поиск, вопрос-ответ в системах умных домов, и системы автоматического сопровождения в транспортных системах. Он предлагает более эффективный и консистентный подход к аудио-текстовой обработке, что может иметь значительное влияние на развитие ИИ в области рассуждения. ## Выводы Audio-Thinker оказался эффективным для улучшения рассуждений в LARMs, существенно повысив точность и консистентность в аудио-ориентированных задачах. Мы планируем дальнейшие исследования для улучшения модели, включая расширение возможностей для более сложных задач и интеграцию других моделей для улучшения ее гибкости и скорости работы.

Abstract

Recent advancements in large language models, multimodal large language models, and large audio language models (LALMs) have significantly improved their reasoning capabilities through reinforcement learning with rule-based rewards. However, the explicit reasoning process has yet to show significant benefits for audio question answering, and effectively leveraging deep reasoning remains an open challenge, with LALMs still falling short of human-level auditory-language reasoning. To address these limitations, we propose Audio-Thinker, a reinforcement learning framework designed to enhance the reasoning capabilities of LALMs, with a focus on improving adaptability, consistency, and effectiveness. Our approach introduces an adaptive think accuracy reward, enabling the model to adjust its reasoning strategies based on task complexity dynamically. Furthermore, we incorporate an external reward model to evaluate the overall consistency and quality of the reasoning process, complemented by think-based rewards that help the model distinguish between valid and flawed reasoning paths during training. Experimental results demonstrate that our Audio-Thinker model outperforms existing reasoning-oriented LALMs across various benchmark tasks, exhibiting superior reasoning and generalization capabilities.

Ссылки и действия

Связанные статьи

Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in La...

#### Контекст Large Audio-Language Models (LALMs) являются важной компонентой интеллектуальных систем, объединяющих ауд...

2025-09-25