AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
2509.08031v2
cs.SD, cs.AI, cs.LG, eess.AS
2025-09-12
Авторы:
Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
Резюме на русском
## Контекст
Профилирование звуковой логики и семантики в больших звуковых языковых моделях (LALMs) является ключевым заданием для их эффективного применения в различных сферах, включая аудио-анализ, генерирование речевых моделей и робототехнику. Несмотря на то, что эти модели продвигаются с технической стороны, оценка их качества и широкого применения ограничивается существующими решениями, которые недостаточно эффективны и не учитывают все аспекты аудио-логики. Это приводит к проблемам с ростом скорости, несогласованностью обработки и ограниченной областью применения. Наша мотивация заключается в разработке быстрого, универсального и стандартизированного инструмента, который может помочь улучшить систематическую оценку и применение звуковых моделей.
## Метод
AU-Harness представляет собой открытый инструментальный набор для систематической оценки LALMs. Он включает:
- **Оптимизированную обработку**: уменьшение затрат на вычисления с помощью батч-обработки и параллельной обработки, что приводит к ускорению процесса до 127%.
- **Стандартизированные протоколы проблем**: устранение несогласованностей в обработке, чтобы обеспечить последовательность результатов и надежность экспериментов.
- **Расширение области оценки**: включение новых типов задач, таких как **LLM-Adaptive Diarization** (для временной анализа) и **Spoken Language Reasoning** (для оценки когнитивных задач).
- **Гибкость в настройке**: пользователи могут настроить процессы для различных задач и моделей, чтобы обеспечить честную сравнительную оценку.
## Результаты
Мы провели эксперименты с 380+ задачами, используя AU-Harness для оценки нескольких звуковых моделей. Наши результаты показали:
- **Скорость**: до 2,7 раз быстрее существующих систем.
- **Стандартизация**: снижение разброса результатов связанного с несогласованностью в протоколах.
- **Обнаружение лаконичных моделей**: выявление сильных и слабых сторон моделей в таких областях как временное понимание аудио и сложные задачи рассуждения.
- **Найденные проблемы**: многочисленные модели слабо выступают в области временного анализа и задач рассуждения, что отражается в узких базовых результатах.
## Значимость
AU-Harness открывает новые возможности для систематической оценки LALMs, которые могут применяться в следующих сферах:
- **Разработка звуковых моделей**: помогает разработчикам определить слабые места в моделях и усовершенствовать их.
- **Промышленность и робототехника**: предоставляет инструменты для проверки моделей в реальных задачах, таких как голосовое взаимодействие и анализ аудио.
- **Образование и интеллектуальные системы**: позволяет измерить уровень понимания голосовых команд и сло
Abstract
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.