Thinking with Sound: Audio Chain-of-Thought Enables Multimodal Reasoning in Large Audio-Language Models
2509.21749v1
cs.CL, cs.SD
2025-09-30
Авторы:
Zhen Xiong, Yujun Cai, Zhecheng Li, Junsong Yuan, Yiwei Wang
Резюме на русском
## Контекст
В последние годы опытные бо LALMs (Large Audio-Language Models) показали сильный результат в различных задачах понимания аудио, таких как перевод речи и аудио-вопросы-ответы. Однако, несмотря на эти достижения, они сталкиваются с значительными ограничениями при работе с задачами рассуждения в аудио, особенно в сложных акустических сценариях. Например, в таких ситуациях необходимы акустические инструменты, такие как убирание шума, изоляция источников звука и точное временное выравнивание. Несмотря на то, что эти инструменты могут быть полезны, современные LALMs не обладают доступом к ним. Эта проблема становится более важной, так как повышение уровня звуковой природности и объема сложных аудиоданных, с которыми сталкиваются пользователи, поднимает требования к моделям в области системы рассуждения в аудио. Для решения этой проблемы мы предлагаем Thinking-with-Sound (TwS), новую фреймворк, которая дает LALMs возможность применять Audio CoT (Audio Chain-of-Thought), комбинируя языковое рассуждение с анализом в реальном времени в аудиодомене. Это предложение отличается от существующих подходов, где аудио трактуется как статический ввод, и позволяет моделям активно "рассуждать с помощью звука", выполняя цифровое создание числовых данных и дальнейшую обработку через многомодальное рассуждение.
## Метод
Предлагаемая методология, Thinking-with-Sound (TwS), включает в себя многоуровневый подход для комбинирования языкового и аудио-рассуждения. В своей основе TwS имеет архитектуру, которая позволяет LALMs активно выполнять рассуждение в аудиодомене, используя набор акустических инструментов, таких как источник сегментации, шумоподавление и временное выравнивание. Эти инструменты интегрируются в модель непосредственно во время работы, чтобы обеспечить наибольшую точность и реактивность. Метод TwS также использует многомодальное рассуждение, чтобы объединить входящие звуковые сигналы с текстовыми данными, а затем анализировать и интепретировать их совместно. Это позволяет модели не только понимать звуковые сигналы, но и активно рассуждать над ними, чтобы улучшить результаты понимания и обработки аудиоданных. Эта методика отличается от прежних подходов, где модели обычно работают только с текстовыми входными данными и имеют ограниченные возможности анализа аудиосигналов.
## Результаты
Для оценки эффективности TwS мы провели ряд экспериментов, использовав различные задачи понимания аудио и подвергнув их проблемам, таким как удаление шума, искажение звука и многоканальное смешивание. Мы использовали обучающие данные из наборов данных, таких как AudioSet и LibriSpe
Abstract
Recent Large Audio-Language Models (LALMs) have shown strong performance on
various audio understanding tasks such as speech translation and Audio Q\&A.
However, they exhibit significant limitations on challenging audio reasoning
tasks in complex acoustic scenarios. These situations would greatly benefit
from the use of acoustic tools like noise suppression, source separation, and
precise temporal alignment, but current LALMs lack access to such tools. To
address this limitation, we introduce Thinking-with-Sound (TwS), a framework
that equips LALMs with Audio CoT by combining linguistic reasoning with
on-the-fly audio-domain analysis. Unlike existing approaches that treat audio
as static input, TwS enables models to actively think with audio signals,
performing numerical analysis and digital manipulation through multimodal
reasoning. To evaluate this approach, we construct MELD-Hard1k, a new
robustness benchmark created by introducing various acoustic perturbations.
Experiments reveal that state-of-the-art LALMs suffer dramatic performance
degradation on MELD-Hard1k, with accuracy dropping by more than $50\%$ compared
to clean audio. TwS achieves substantial improvements in robustness,
demonstrating both effectiveness and scalability: small models gain $24.73\%$
absolute accuracy, with improvements scaling consistently up to $36.61\%$ for
larger models. Our findings demonstrate that Audio CoT can significantly
enhance robustness without retraining, opening new directions for developing
more robust audio understanding systems.
Ссылки и действия
Дополнительные ресурсы: