Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding

2508.11818v1 cs.SD, cs.LG 2025-08-19

Авторы:

Zhifeng Kong, Arushi Goel, Joao Felipe Santos, Sreyan Ghosh, Rafael Valle, Wei Ping, Bryan Catanzaro

Резюме на русском

## Контекст Область исследования аудио-анализа и обработки звука постоянно развивается, в связи с ростом интереса к обработке естественных языков и сложным прикладным задачам. Несмотря на успехы в области языковых моделей и визуально-языковых моделей, цепочечный (chain-of-thought) подход в рассуждениях, особенно в аудиозадачах, остается недостаточно исследованным. Данное исследование сосредоточено на том, как адаптировать chain-of-thought (CoT) на слуховые данные, чтобы улучшить его модели. Основная мотивация заключается в улучшении логического рассуждения в аудиомоделях, чтобы их можно было использовать для решения задач распознавания звука и оценки звуковых данных. ## Метод Для улучшения chain-of-thought в аудиомоделях предлагается создание собственной корпорации данных, AF-CoT-Train, включающей 1.24 миллиона примеров. Эта корпорация данных генерируется с помощью автоматических трансформационных техник, которые преобразуют существующие задачи связывания вопросов и ответов с звуковыми данными в цепочки рассуждений. Архитектура цепочечного рассуждения включает в себя несколько этапов: преобразование входных задач в структурированные запросы с цепочками, следующим образом, чтобы модель могла лучше понять логику и связи между содержанием, а также улучшить свои решения. Модели Audio Flamingo были применены для обучения и тестирования, с целью улучшения chain-of-thought. ## Результаты Эксперименты проводились на AF-Reasoning-Eval, бенчмарк, разработанный для оценки логических рассуждений в звуковых моделях. Модели Audio Flamingo были обучены AF-CoT-Train и протестированы на AF-Reasoning-Eval. Результаты показали значительные улучшения в производительности, особенно в области выполнения зондных рассуждений и выбора среди близких вариантов. Такие результаты подтвердили эффективность chain-of-thought finetuning для улучшения звукового понимания и рассуждений. ## Значимость Улучшение chain-of-thought в аудиомоделях имеет широкие применения в таких областях, как распознавание звука, оценка звуковых записей, а также в обработке естественного языка и других сложных приложениях. Этот подход демонстрирует повышенную точность и логическую корректность в анализе аудиоматериалов. Это может привести к улучшению приложений, таких как системы распознавания речи, звуковой поиск и визуально-аудио синтез. ## Выводы Этот доклад демонстрирует начальные успехи в применении chain-of-thought на слуховые данные, показывая улучшение производительности на различных задачах звукового понимания. Будущие исследования будут сосредоточены на улучшении логики chain-of-thought для более сложных задач зву

Abstract

Chain-of-thought reasoning has demonstrated significant improvements in large language models and vision language models, yet its potential for audio language models remains largely unexplored. In this technical report, we take a preliminary step towards closing this gap. For better assessment of sound reasoning, we propose AF-Reasoning-Eval, a benchmark targeting common-sense reasoning and the ability to discriminate among closely related choices. To prepare training corpus for sound reasoning abilities, we propose automatic pipelines that transform existing audio question answering and classification data into explicit reasoning chains, yielding AF-CoT-Train with 1.24M samples. We study the effect of finetuning Audio Flamingo series on AF-CoT-Train and observe considerable improvements on several reasoning benchmarks, validating the effectiveness of chain-of-thought finetuning on advanced sound understanding.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация