Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding
2508.11818v1
cs.SD, cs.LG
2025-08-19
Авторы:
Zhifeng Kong, Arushi Goel, Joao Felipe Santos, Sreyan Ghosh, Rafael Valle, Wei Ping, Bryan Catanzaro
Резюме на русском
## Контекст
Область исследования аудио-анализа и обработки звука постоянно развивается, в связи с ростом интереса к обработке естественных языков и сложным прикладным задачам. Несмотря на успехы в области языковых моделей и визуально-языковых моделей, цепочечный (chain-of-thought) подход в рассуждениях, особенно в аудиозадачах, остается недостаточно исследованным. Данное исследование сосредоточено на том, как адаптировать chain-of-thought (CoT) на слуховые данные, чтобы улучшить его модели. Основная мотивация заключается в улучшении логического рассуждения в аудиомоделях, чтобы их можно было использовать для решения задач распознавания звука и оценки звуковых данных.
## Метод
Для улучшения chain-of-thought в аудиомоделях предлагается создание собственной корпорации данных, AF-CoT-Train, включающей 1.24 миллиона примеров. Эта корпорация данных генерируется с помощью автоматических трансформационных техник, которые преобразуют существующие задачи связывания вопросов и ответов с звуковыми данными в цепочки рассуждений. Архитектура цепочечного рассуждения включает в себя несколько этапов: преобразование входных задач в структурированные запросы с цепочками, следующим образом, чтобы модель могла лучше понять логику и связи между содержанием, а также улучшить свои решения. Модели Audio Flamingo были применены для обучения и тестирования, с целью улучшения chain-of-thought.
## Результаты
Эксперименты проводились на AF-Reasoning-Eval, бенчмарк, разработанный для оценки логических рассуждений в звуковых моделях. Модели Audio Flamingo были обучены AF-CoT-Train и протестированы на AF-Reasoning-Eval. Результаты показали значительные улучшения в производительности, особенно в области выполнения зондных рассуждений и выбора среди близких вариантов. Такие результаты подтвердили эффективность chain-of-thought finetuning для улучшения звукового понимания и рассуждений.
## Значимость
Улучшение chain-of-thought в аудиомоделях имеет широкие применения в таких областях, как распознавание звука, оценка звуковых записей, а также в обработке естественного языка и других сложных приложениях. Этот подход демонстрирует повышенную точность и логическую корректность в анализе аудиоматериалов. Это может привести к улучшению приложений, таких как системы распознавания речи, звуковой поиск и визуально-аудио синтез.
## Выводы
Этот доклад демонстрирует начальные успехи в применении chain-of-thought на слуховые данные, показывая улучшение производительности на различных задачах звукового понимания. Будущие исследования будут сосредоточены на улучшении логики chain-of-thought для более сложных задач зву
Abstract
Chain-of-thought reasoning has demonstrated significant improvements in large
language models and vision language models, yet its potential for audio
language models remains largely unexplored. In this technical report, we take a
preliminary step towards closing this gap. For better assessment of sound
reasoning, we propose AF-Reasoning-Eval, a benchmark targeting common-sense
reasoning and the ability to discriminate among closely related choices. To
prepare training corpus for sound reasoning abilities, we propose automatic
pipelines that transform existing audio question answering and classification
data into explicit reasoning chains, yielding AF-CoT-Train with 1.24M samples.
We study the effect of finetuning Audio Flamingo series on AF-CoT-Train and
observe considerable improvements on several reasoning benchmarks, validating
the effectiveness of chain-of-thought finetuning on advanced sound
understanding.
Ссылки и действия
Дополнительные ресурсы: