SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

2509.15661v1 cs.SD, cs.AI, cs.CL, eess.AS 2025-09-23
Авторы:

Qiaolin Wang, Xilin Jiang, Linyang He, Junkai Wu, Nima Mesgarani

Резюме на русском

#### Контекст Современные audio-language models (LALMs) демонстрируют состояние техники в аудио-уровне, но их возможности в комплексных аудио-сценариях остаются ниже уровня vision-language models (LVLMs). Этот разрыв обусловлен нехваткой больших аудио-учебных данных с цепочкой мышления (chain-of-thought, CoT), необходимых для шагами воспроизведения решения задач. Этому ограничению мы направляемся, предлагая SightSound-R1 — рамочную методику для переноса знаний с помощью cross-modal distillation. #### Метод SightSound-R1 основывается на трех основных этапах: 1. **Тест-time scaling**: Генерация аудио-целенаправленных цепочек мышления (CoT) с помощью LVLM-teacher. 2. **Audio-grounded validation**: Фильтрация нежелательных халлуцинаций в цепочках мышления. 3. **Distillation pipeline**: Реализация двухступенчатого адаптированного обучения — дискриминативного уровня (supervised fine-tuning, SFT) и группового уровня (Group Relative Policy Optimization, GRPO). #### Результаты Проведенные эксперименты показали, что SightSound-R1 улучшает разумование LALM не только на встроенном AVQA-тестовом наборе, но и на более широком спектре звуковых сценариев и вопросов. Оно превосходит другие модели, оперирующие только с меток или базовыми формулами переноса знаний. #### Значимость Метод предлагает гибкое решение для переноса знаний из моделей зрения в модели звука, позволяя улучшить их восприятие сложных сценариев. Это может быть применено в областях, где высокий уровень понимания сложной аудио-информации критичен (например, в аксессуарах, диагностических системах, домашней автоматизации). #### Выводы Результаты подтверждают, что модели звука могут быть эффективно обогащены знаниями доставленными из моделей зрения. Будущие исследования будут сконцентрированы на усовершенствовании структуры GRPO и достижении широкой готовности для практического применения.

Abstract

While large audio-language models (LALMs) have demonstrated state-of-the-art audio understanding, their reasoning capability in complex soundscapes still falls behind large vision-language models (LVLMs). Compared to the visual domain, one bottleneck is the lack of large-scale chain-of-thought audio data to teach LALM stepwise reasoning. To circumvent this data and modality gap, we present SightSound-R1, a cross-modal distillation framework that transfers advanced reasoning from a stronger LVLM teacher to a weaker LALM student on the same audio-visual question answering (AVQA) dataset. SightSound-R1 consists of three core steps: (i) test-time scaling to generate audio-focused chains of thought (CoT) from an LVLM teacher, (ii) audio-grounded validation to filter hallucinations, and (iii) a distillation pipeline with supervised fine-tuning (SFT) followed by Group Relative Policy Optimization (GRPO) for the LALM student. Results show that SightSound-R1 improves LALM reasoning performance both in the in-domain AVQA test set as well as in unseen auditory scenes and questions, outperforming both pretrained and label-only distilled baselines. Thus, we conclude that vision reasoning can be effectively transferred to audio models and scaled with abundant audio-visual data.

Ссылки и действия