SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models
2509.15661v1
cs.SD, cs.AI, cs.CL, eess.AS
2025-09-23
Авторы:
Qiaolin Wang, Xilin Jiang, Linyang He, Junkai Wu, Nima Mesgarani
Резюме на русском
#### Контекст
Современные audio-language models (LALMs) демонстрируют состояние техники в аудио-уровне, но их возможности в комплексных аудио-сценариях остаются ниже уровня vision-language models (LVLMs). Этот разрыв обусловлен нехваткой больших аудио-учебных данных с цепочкой мышления (chain-of-thought, CoT), необходимых для шагами воспроизведения решения задач. Этому ограничению мы направляемся, предлагая SightSound-R1 — рамочную методику для переноса знаний с помощью cross-modal distillation.
#### Метод
SightSound-R1 основывается на трех основных этапах:
1. **Тест-time scaling**: Генерация аудио-целенаправленных цепочек мышления (CoT) с помощью LVLM-teacher.
2. **Audio-grounded validation**: Фильтрация нежелательных халлуцинаций в цепочках мышления.
3. **Distillation pipeline**: Реализация двухступенчатого адаптированного обучения — дискриминативного уровня (supervised fine-tuning, SFT) и группового уровня (Group Relative Policy Optimization, GRPO).
#### Результаты
Проведенные эксперименты показали, что SightSound-R1 улучшает разумование LALM не только на встроенном AVQA-тестовом наборе, но и на более широком спектре звуковых сценариев и вопросов. Оно превосходит другие модели, оперирующие только с меток или базовыми формулами переноса знаний.
#### Значимость
Метод предлагает гибкое решение для переноса знаний из моделей зрения в модели звука, позволяя улучшить их восприятие сложных сценариев. Это может быть применено в областях, где высокий уровень понимания сложной аудио-информации критичен (например, в аксессуарах, диагностических системах, домашней автоматизации).
#### Выводы
Результаты подтверждают, что модели звука могут быть эффективно обогащены знаниями доставленными из моделей зрения. Будущие исследования будут сконцентрированы на усовершенствовании структуры GRPO и достижении широкой готовности для практического применения.
Abstract
While large audio-language models (LALMs) have demonstrated state-of-the-art
audio understanding, their reasoning capability in complex soundscapes still
falls behind large vision-language models (LVLMs). Compared to the visual
domain, one bottleneck is the lack of large-scale chain-of-thought audio data
to teach LALM stepwise reasoning. To circumvent this data and modality gap, we
present SightSound-R1, a cross-modal distillation framework that transfers
advanced reasoning from a stronger LVLM teacher to a weaker LALM student on the
same audio-visual question answering (AVQA) dataset. SightSound-R1 consists of
three core steps: (i) test-time scaling to generate audio-focused chains of
thought (CoT) from an LVLM teacher, (ii) audio-grounded validation to filter
hallucinations, and (iii) a distillation pipeline with supervised fine-tuning
(SFT) followed by Group Relative Policy Optimization (GRPO) for the LALM
student. Results show that SightSound-R1 improves LALM reasoning performance
both in the in-domain AVQA test set as well as in unseen auditory scenes and
questions, outperforming both pretrained and label-only distilled baselines.
Thus, we conclude that vision reasoning can be effectively transferred to audio
models and scaled with abundant audio-visual data.