Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering

2509.12275v3 cs.SD, cs.AI, eess.AS 2025-09-19

Авторы:

Jinghua Zhao, Hang Su, Lichun Fan, Zhenbo Luo, Hui Wang, Haoqin Sun, Yong Qin

Резюме на русском

## Контекст Аудио-задачи в сфере больших моделей языка и аудио (Large Audio-Language Models, LALMs) набирают огромную популярность в современных научных исследованиях. Одним из самых вызовов в этой области является **аудиовая кваestion анализ (AQA)**, которая требует не только тонкого понимания аудио, но и многоуровневого рассуждения. Несмотря на то, что существуют сложные методы по созданию новых датасетов с помощью технологий капшнинга или анализа реакций, многие из них не полностью используют высококачественные данные, которые уже доступны. Более того, многие методы не эффективно распределяют ресурсы между простыми и сложными примерами, что влияет на общую эффективность обучения. Мы предлагаем Omni-CLST, которая призвана решить эти проблемы, используя ошибки и мыслительные цепи для более эффективного обучения в AQA. ## Метод **Omni-CLST** — это ошибко-акцентированная модель **Curriculum Learning**, которая использует **guided Selective Chain-of-Thought (CoT)**. Основоположником этой модели является две главные стратегии: 1. **Error-aware Curriculum**: Этот подход организует данные по уровню сложности, начиная с простых примеров и постепенно переходя к сложным. Это позволяет модели работать более эффективно, избегая дискредитации на простых задачах. 2. **Guided Selective Chain-of-Thought**: Этот механизм фокусируется на сложных случаях, используя мыслительные цепи для тех вопросов, где это может привести к существенному улучшению производительности. Таким образом, Omni-CLST не только сокращает время обучения, но и улучшает обобщающие способности модели, обрабатывая сложные задачи аудио-задач. ## Результаты Мы провели эксперименты на двух высококачественных датасетах AQA: **MMAU-mini** и **MMAR**. - **MMAU-mini**: Модель Omni-CLST достигла **73.80%**, показав высокую точность и общую способность понимания. - **MMAR**: Omni-CLST показала рекордную точность **64.30%**, открыв новый статус топовой модели в задаче AQA. Эти результаты показывают, что Omni-CLST не только эффективно использует существующие высококачественные данные, но и эффективно работает в задачах, требующих многоуровневого рассуждения. ## Значимость Результаты Omni-CLST могут быть применены в различных областях, включая: - **Аудио-задачи**: Точный анализ звука и сложный рассужденный ответ. - **Многомерные модели**: Методы, использующие обучение по трудности и селективную цепь мышления. - **Искусственный интеллект**: Улучшение общей подготовки моделей к повышенной сложности в задачах. Основное преимущество Omni-CLST заключается в **кросс-доменной обучаемости** и **общей эффективности**, которая может повли

Abstract

With the rapid progress of large audio-language models (LALMs), audio question answering (AQA) has emerged as a challenging task requiring both fine-grained audio understanding and complex reasoning. While current methods mainly rely on constructing new datasets via captioning or reasoning traces, existing high-quality AQA data remains underutilized. To address this, we propose Omni-CLST, an error-aware Curriculum Learning framework with guided Selective Chain-of-Thought. The framework efficiently leverages existing high-quality dataset through two key strategies: an error-aware curriculum that organizes samples by difficulty, and a guided thought dropout mechanism that focuses reasoning on challenging cases. Experiments show that Omni-CLST achieves 73.80% on MMAU-mini and a new state of the art of 64.30% on MMAR, demonstrating robust generalization in multimodal audio-language understanding.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация