MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark

2509.22461v1 cs.SD, cs.AI, cs.CL, eess.AS 2025-09-30

Авторы:

Hui Li, Changhao Jiang, Hongyu Wang, Ming Zhang, Jiajun Sun, Zhixiong Yang, Yifei Cao, Shihan Dou, Xiaoran Fan, Baoyu Fan, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

Резюме на русском

## Контекст Аудиовещание является ключевым инструментом для обеспечения эффективной взаимодействия между ИИ-агентами и реальным миром. Оно включает различные аспекты, такие как речь, паралингвистические признаки, звуки окружающей среды и музыка. Несмотря на продвижение моделей ИИ, существующие бенчмарки аудиопроцессинга ограничены статическими или однопоточными сценариями, не учитывая сложные сценарии, где несколько говорящих, развивающиеся события и разнородные источники аудио взаимодействуют динамически. Для решения этой проблемы представлен MDAR — бенчмарк для оценки моделей в области сложных задач разума по аудио в динамических сценариях. ## Метод MDAR является первым бенчмарком, оценивающим модели на различных сложных задачах разума по аудио в многосценной и динамической среде. Он содержит 3,000 вопросов-ответов, связанных с аудио клипами, разделенными на пять категорий сложного разума и три типа вопросов. Бенчмарк охватывает разные аспекты аудиосигнала, включая речь, паралингвистические признаки, музыку и звуки. Он предназначен для проверки моделей на логическую абстракцию, способность к многоэлементному анализу и пониманию сложного аудио. Таким образом, MDAR является новым исследовательским инструментом для развития ИИ. ## Результаты Для проверки MDAR использовались 26 современных аудио-языковых моделей. На задаче многоэлементного анализа, GPT-4o Audio (закрытая модель) достигла 68.47%, а Qwen2.5-Omni (открытая модель) — 76.67%. Однако GPT-4o Audio показал значительное преимущество на задачах с многоэлементным тестированием и открытым ответом. Ни одна модель не смогла достичь 80% точности, что подтверждает сложность задач бенчмарка. Эти результаты демонстрируют необходимость развития аудио-разума и сделали MDAR отличным исследовательским средством для его достижения. ## Значимость MDAR открывает новые возможности для исследования различных аспектов разума, включая речь, музыку, симуляцию разных сценариев и анализ паралингвистических признаков. Он позволяет проверить модели на логическое мышление, разрешение противоречий и обнаружение звуков. Благодаря своему многогранному подходу, MDAR является идеальным инструментом для развития моделей ИИ, которые способны решать сложные задачи в реальных условиях. Его результаты могут применяться в разработке ИИ для многоязычных систем, систем распознавания речи, автоматизированных систем управления и других областях. ## Выводы MDAR — это первый бенчмарк, который демонстрирует сложность многосценных и динамически

Abstract

The ability to reason from audio, including speech, paralinguistic cues, environmental sounds, and music, is essential for AI agents to interact effectively in real-world scenarios. Existing benchmarks mainly focus on static or single-scene settings and do not fully capture scenarios where multiple speakers, unfolding events, and heterogeneous audio sources interact. To address these challenges, we introduce MDAR, a benchmark for evaluating models on complex, multi-scene, and dynamically evolving audio reasoning tasks. MDAR comprises 3,000 carefully curated question-answer pairs linked to diverse audio clips, covering five categories of complex reasoning and spanning three question types. We benchmark 26 state-of-the-art audio language models on MDAR and observe that they exhibit limitations in complex reasoning tasks. On single-choice questions, Qwen2.5-Omni (open-source) achieves 76.67% accuracy, whereas GPT-4o Audio (closed-source) reaches 68.47%; however, GPT-4o Audio substantially outperforms Qwen2.5-Omni on the more challenging multiple-choice and open-ended tasks. Across all three question types, no model achieves 80% performance. These findings underscore the unique challenges posed by MDAR and its value as a benchmark for advancing audio reasoning research.Code and benchmark can be found at https://github.com/luckyerr/MDAR.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speake...

SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Model...

ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Gene...

AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding an...

From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Rewar...

Навигация