Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-wise Distillation

2509.18579v1 eess.AS, cs.CL, cs.SD 2025-09-25
Авторы:

Runyan Yang, Yuke Si, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang

Резюме на русском

## Контекст Значительные успехи в области моделей звука, таких как распознавание речи (ASR) и распознавание эмоций, были достигнуты благодаря развитию больших звуковых моделей. Однако эти модели часто сталкиваются с проблемами при выполнении задач, требующих сложного рассуждения. Одним из основных ограничений является модальный разрыв между звуковыми и текстовыми моделями, что приводит к неэффективности в передаче логических и рассужденных знаний. Более того, отсутствие структурированной получаемой накачки делает сложной задачу улучшения возможностей модели звука в рассуждениях. Мы предлагаем рамку для знаний, позволяющую передать знания с текстовых моделей на звуковые модели, обеспечив при этом сохранение их акустических способностей. ## Метод Мы предлагаем метод, объединяющий два ключевых аспекта: **source-wise distillation** и **layer-wise distillation**. **Source-wise distillation** интегрирует обучение с учителем на тексте и акустическом учителе, чтобы предоставить моделей звука полноту модальных сигналов. **Layer-wise distillation** направляет знания с учителя на соответствующие слои в модели звука, чтобы оптимизировать эффективность передачи сигналов. Эта двухмерная стратегия позволяет тщательно контролировать процесс передачи знаний, позволяя модели звука соединить символические рассуждения с акустическими сигналами. ## Результаты Мы провели эксперименты на стандартных данных, подтвердив выигрыш в передаче знаний с текстовых моделей на модели звука в задачах, таких как рассуждение по тексту и распознавание эмоций. Наши эксперименты показали, что наш метод позволяет модели звука развивать логические способности, сохранив акустические способности, что демонстрирует эффективность нашего подхода в передаче знаний в моделях звука. ## Значимость Предлагаемая рамка может использоваться в различных областях, таких как звуковое распознавание, рассуждение по тексту и распознавание эмоций. Наш подход улучшает эффективность моделей звука, позволяя им выполнять сложные задачи сложного рассуждения. Это имеет потенциал для расширения возможностей моделей звука в различных приложениях, таких как медицинские приложения, обнаружение эмоций и живое переключение между символическими и акустическими моделями. ## Выводы Мы представили рамку для знаний, позволяющую передать знания с текстовых моделей на модели звука, обеспечивая эффективность передачи знаний и сохранение акустических способностей. Этот метод демонстрирует улучшение возможностей моделей звука в сложных задачах рассуждения, и мы видим возможности для его развития и применения в будущих иссле

Abstract

While large audio language models excel at tasks like ASR and emotion recognition, they still struggle with complex reasoning due to the modality gap between audio and text as well as the lack of structured intermediate supervision. To address this, we propose a unified knowledge distillation framework to transfer reasoning capabilities from a high-capacity textual teacher model to a student audio models while preserving its acoustic competence. Our method introduces two key dimensions: source-wise distillation, which leverages both textual and acoustic teachers to provide complementary modality-specific supervision; and layer-wise distillation, which aligns teacher signals with appropriate student layers to improve transfer efficiency. This dual-dimensional strategy enables fine-grained control over the distillation process, effectively bridging the gap between symbolic reasoning and speech representations. Experimental results show significant improvements in audio reasoning performance, demonstrating the effectiveness of our framework as a reasoning transfer solution for audio modeling.

Ссылки и действия