Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering
2509.12275v3
cs.SD, cs.AI, eess.AS
2025-09-19
Авторы:
Jinghua Zhao, Hang Su, Lichun Fan, Zhenbo Luo, Hui Wang, Haoqin Sun, Yong Qin
Резюме на русском
## Контекст
Аудио-задачи в сфере больших моделей языка и аудио (Large Audio-Language Models, LALMs) набирают огромную популярность в современных научных исследованиях. Одним из самых вызовов в этой области является **аудиовая кваestion анализ (AQA)**, которая требует не только тонкого понимания аудио, но и многоуровневого рассуждения. Несмотря на то, что существуют сложные методы по созданию новых датасетов с помощью технологий капшнинга или анализа реакций, многие из них не полностью используют высококачественные данные, которые уже доступны. Более того, многие методы не эффективно распределяют ресурсы между простыми и сложными примерами, что влияет на общую эффективность обучения. Мы предлагаем Omni-CLST, которая призвана решить эти проблемы, используя ошибки и мыслительные цепи для более эффективного обучения в AQA.
## Метод
**Omni-CLST** — это ошибко-акцентированная модель **Curriculum Learning**, которая использует **guided Selective Chain-of-Thought (CoT)**. Основоположником этой модели является две главные стратегии:
1. **Error-aware Curriculum**: Этот подход организует данные по уровню сложности, начиная с простых примеров и постепенно переходя к сложным. Это позволяет модели работать более эффективно, избегая дискредитации на простых задачах.
2. **Guided Selective Chain-of-Thought**: Этот механизм фокусируется на сложных случаях, используя мыслительные цепи для тех вопросов, где это может привести к существенному улучшению производительности.
Таким образом, Omni-CLST не только сокращает время обучения, но и улучшает обобщающие способности модели, обрабатывая сложные задачи аудио-задач.
## Результаты
Мы провели эксперименты на двух высококачественных датасетах AQA: **MMAU-mini** и **MMAR**.
- **MMAU-mini**: Модель Omni-CLST достигла **73.80%**, показав высокую точность и общую способность понимания.
- **MMAR**: Omni-CLST показала рекордную точность **64.30%**, открыв новый статус топовой модели в задаче AQA.
Эти результаты показывают, что Omni-CLST не только эффективно использует существующие высококачественные данные, но и эффективно работает в задачах, требующих многоуровневого рассуждения.
## Значимость
Результаты Omni-CLST могут быть применены в различных областях, включая:
- **Аудио-задачи**: Точный анализ звука и сложный рассужденный ответ.
- **Многомерные модели**: Методы, использующие обучение по трудности и селективную цепь мышления.
- **Искусственный интеллект**: Улучшение общей подготовки моделей к повышенной сложности в задачах.
Основное преимущество Omni-CLST заключается в **кросс-доменной обучаемости** и **общей эффективности**, которая может повли
Abstract
With the rapid progress of large audio-language models (LALMs), audio
question answering (AQA) has emerged as a challenging task requiring both
fine-grained audio understanding and complex reasoning. While current methods
mainly rely on constructing new datasets via captioning or reasoning traces,
existing high-quality AQA data remains underutilized. To address this, we
propose Omni-CLST, an error-aware Curriculum Learning framework with guided
Selective Chain-of-Thought. The framework efficiently leverages existing
high-quality dataset through two key strategies: an error-aware curriculum that
organizes samples by difficulty, and a guided thought dropout mechanism that
focuses reasoning on challenging cases. Experiments show that Omni-CLST
achieves 73.80% on MMAU-mini and a new state of the art of 64.30% on MMAR,
demonstrating robust generalization in multimodal audio-language understanding.
Ссылки и действия
Дополнительные ресурсы: