LALM-Eval: An Open-Source Toolkit for Holistic Evaluation of Large Audio Language Models

2509.08031v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-11
Авторы:

Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan

Резюме на русском

## Контекст Огромные Аудио-Языковые Модели (LALMs) постоянно развиваются, что влечет за собой возрастающий интерес к их эффективному использованию в различных приложениях. Однако эффективная оценка таких моделей остается вызовом. На сегодняшний день существуют недостатки в инструментах, позволяющих провести систематическую оценку. В частности, существуют фреймворки, которые либо медленны в обработке, либо не поддерживают согласованные методы представления задач, что снижает возможность воспроизводимости исследований. Кроме того, многие существующие инструменты не покрывают все типы задач, необходимых для полной оценки LALMs. Данная статья посвящена разработке LALM-Eval, комплексного и эффективного системного фреймворка для оценки LALMs, который предназначен для решения этих проблем. ## Метод LALM-Eval представляет собой новую систему для эффективного и широкого опробования LALMs. Она включает в себя оптимизированные алгоритмы для быстрого обработки больших объемов данных с использованием параллельных вычислений. Благодаря этому, модели могут быть протестированы на большом количестве задач одновременно. Кроме того, в фреймворк включены стандартизированные протоколы для методов представления задач, что позволяет уменьшить влияние человеческого фактора при сравнении моделей. Также включены две новые категории оценки: LLM-Adaptive Diarization для временной обработки аудио-данных и Spoken Language Reasoning для решения сложных задач рассуждения на основе голосовых данных. ## Результаты Проведенные эксперименты показали, что LALM-Eval значительно быстрее существующих инструментов, обеспечивая скорость обработки до 127% выше. Это позволяет проводить большую масштабность оценки, которая ранее была недоступна. Благодаря стандартизированным протоколам, результаты становятся более воспроизводимыми и сравнимыми. Было проанализировано более 380 различных задач, включая различные сценарии распознавания речи, аудио-диаризации и комплексных задач рассуждения. Обнаружены существующие проблемы в нынешних LALMs, в частности, в слабой обработке временных задач и сложных голосовых ситуаций, таких как рассуждения. Также были выявлены проблемы стандартизации в модах инструктирования, которые могут приводить к существенным диспарностям в результатах. ## Значимость LALM-Eval представляет собой практический инструмент для разработчиков и исследователей LALMs. Он позволяет проводить более точные и высокомасштабные оценки, которые являются ключевыми для выявления ограничений моделей. Эта система также демонстрирует потребность в стандартизации в мо

Abstract

Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce LALM-Eval, an efficient and comprehensive evaluation framework for LALMs. Our system achieves a speedup of up to 127% over existing toolkits through optimized batch processing and parallel execution, enabling large-scale evaluations previously impractical. We provide standardized prompting protocols and flexible configurations for fair model comparison across diverse scenarios. Additionally, we introduce two new evaluation categories: LLM-Adaptive Diarization for temporal audio understanding and Spoken Language Reasoning for complex audio-based cognitive tasks. Through evaluation across 380+ tasks, we reveal significant gaps in current LALMs, particularly in temporal understanding and complex spoken language reasoning tasks. Our findings also highlight a lack of standardization in instruction modality existent across audio benchmarks, which can lead up performance differences up to 9.5 absolute points on the challenging complex instruction following downstream tasks. LALM-Eval provides both practical evaluation tools and insights into model limitations, advancing systematic LALM development.

Ссылки и действия