Thinking with Sound: Audio Chain-of-Thought Enables Multimodal Reasoning in Large Audio-Language Models

2509.21749v1 cs.CL, cs.SD 2025-09-30

Авторы:

Zhen Xiong, Yujun Cai, Zhecheng Li, Junsong Yuan, Yiwei Wang

Резюме на русском

## Контекст В последние годы опытные бо LALMs (Large Audio-Language Models) показали сильный результат в различных задачах понимания аудио, таких как перевод речи и аудио-вопросы-ответы. Однако, несмотря на эти достижения, они сталкиваются с значительными ограничениями при работе с задачами рассуждения в аудио, особенно в сложных акустических сценариях. Например, в таких ситуациях необходимы акустические инструменты, такие как убирание шума, изоляция источников звука и точное временное выравнивание. Несмотря на то, что эти инструменты могут быть полезны, современные LALMs не обладают доступом к ним. Эта проблема становится более важной, так как повышение уровня звуковой природности и объема сложных аудиоданных, с которыми сталкиваются пользователи, поднимает требования к моделям в области системы рассуждения в аудио. Для решения этой проблемы мы предлагаем Thinking-with-Sound (TwS), новую фреймворк, которая дает LALMs возможность применять Audio CoT (Audio Chain-of-Thought), комбинируя языковое рассуждение с анализом в реальном времени в аудиодомене. Это предложение отличается от существующих подходов, где аудио трактуется как статический ввод, и позволяет моделям активно "рассуждать с помощью звука", выполняя цифровое создание числовых данных и дальнейшую обработку через многомодальное рассуждение. ## Метод Предлагаемая методология, Thinking-with-Sound (TwS), включает в себя многоуровневый подход для комбинирования языкового и аудио-рассуждения. В своей основе TwS имеет архитектуру, которая позволяет LALMs активно выполнять рассуждение в аудиодомене, используя набор акустических инструментов, таких как источник сегментации, шумоподавление и временное выравнивание. Эти инструменты интегрируются в модель непосредственно во время работы, чтобы обеспечить наибольшую точность и реактивность. Метод TwS также использует многомодальное рассуждение, чтобы объединить входящие звуковые сигналы с текстовыми данными, а затем анализировать и интепретировать их совместно. Это позволяет модели не только понимать звуковые сигналы, но и активно рассуждать над ними, чтобы улучшить результаты понимания и обработки аудиоданных. Эта методика отличается от прежних подходов, где модели обычно работают только с текстовыми входными данными и имеют ограниченные возможности анализа аудиосигналов. ## Результаты Для оценки эффективности TwS мы провели ряд экспериментов, использовав различные задачи понимания аудио и подвергнув их проблемам, таким как удаление шума, искажение звука и многоканальное смешивание. Мы использовали обучающие данные из наборов данных, таких как AudioSet и LibriSpe

Abstract

Recent Large Audio-Language Models (LALMs) have shown strong performance on various audio understanding tasks such as speech translation and Audio Q\&A. However, they exhibit significant limitations on challenging audio reasoning tasks in complex acoustic scenarios. These situations would greatly benefit from the use of acoustic tools like noise suppression, source separation, and precise temporal alignment, but current LALMs lack access to such tools. To address this limitation, we introduce Thinking-with-Sound (TwS), a framework that equips LALMs with Audio CoT by combining linguistic reasoning with on-the-fly audio-domain analysis. Unlike existing approaches that treat audio as static input, TwS enables models to actively think with audio signals, performing numerical analysis and digital manipulation through multimodal reasoning. To evaluate this approach, we construct MELD-Hard1k, a new robustness benchmark created by introducing various acoustic perturbations. Experiments reveal that state-of-the-art LALMs suffer dramatic performance degradation on MELD-Hard1k, with accuracy dropping by more than $50\%$ compared to clean audio. TwS achieves substantial improvements in robustness, demonstrating both effectiveness and scalability: small models gain $24.73\%$ absolute accuracy, with improvements scaling consistently up to $36.61\%$ for larger models. Our findings demonstrate that Audio CoT can significantly enhance robustness without retraining, opening new directions for developing more robust audio understanding systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Thinking with Sound: Audio Chain-of-Thought Enables Multimodal Reasoning in Large Audio-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dialect Identification Using Resource-Efficient Fine-Tuning Approaches

A new kid on the block: Distributional semantics predicts the word-specific tone...

CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokk...

POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Tex...

CantoASR: Prosody-Aware ASR-LALM Collaboration for Low-Resource Cantonese

Навигация