WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations

2508.20976v1 cs.SD, cs.AI, eess.AS 2025-08-30
Авторы:

Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim

Резюме на русском

## Контекст За последние годы, аудио-языковые модели (Audiolanguage Models, ALMs) получили популярность благодаря их удачному слиянию возможностей языкового понимания и распознавания звуков. Однако далеко не всегда эти модели достигают высокого уровня гибкости и точности при работе с нестандартными задачами, которые требуют скорости резолюции и точности распознавания сложных акустических сигналов. Например, модели должны быть способны определять длительность звука, его тон, интенсивность и другие мелкие акустические характеристики, чтобы распознавать звуки в реальных условиях. Эти данные являются ключевыми для распространенных приложений, таких как звуковые системы оповещения, анализ голосов и аудиосканирование в животных. Однако существующие модели часто не обладают достаточным уровнем точности и универсальности, чтобы справиться с нестандартными ситуациями. Для направления исследований в этом направлений, авторы представили WoW-Bench — бенчмарк, ориентированный на оценку тонкой акустической перцепции и когнитивных способностей моделей аудио-языка. ## Метод WoW-Bench представляет собой два основных компонента: Perception Benchmark и Cognition Benchmark. В Perception Benchmark реализована задача классификации звуков на основе голосов морских млекопитающих. Модели должны классифицировать звуки в классы, например, свист, рычание и т. д., используя тон, продолжительность и другие акустические свойства. Данная задача позволяет оценить уровень точности моделей при работе с нетипичными акустическими сигналами. Cognition Benchmark является более сложной и включает в себя различные задачи, основанные на Bloom's taxonomy, чтобы отразить уровень глубины понимания звука. Здесь модели должны выполнить задачи, такие как запоминание звуков, обобщение их, сравнение с другими звуками или их анализ. Например, модель может получить задачу "найди звук A, который наиболее похож на звук B, но не тем же звуком C". Особенностью Cognition Benchmark является внедрение distractor-задач, которые требуют от моделей удостовериться в том, что они решают задачу на основе звукового анализа, а не других неспецифичных способов. ## Результаты Для оценки WoW-Bench, авторы применили несколько современных аудио-языковых моделей, включая те, которые достигли высоких результатов в области текстового понимания. Измеренное качество моделей было сравнено с задачами, выполненными человеком. Качество моделей оказалось значительно ниже уровня человеческого уровня, особенно в задачах, требующих тонкого акустического анализа. Например, модели с удивительно низкой точностью распознавали звуки в зоогео

Abstract

Large audio language models (LALMs) extend language understanding into the auditory domain, yet their ability to perform low-level listening, such as pitch and duration detection, remains underexplored. However, low-level listening is critical for real-world, out-of-distribution tasks where models must reason about unfamiliar sounds based on fine-grained acoustic cues. To address this gap, we introduce the World-of-Whale benchmark (WoW-Bench) to evaluate low-level auditory perception and cognition using marine mammal vocalizations. WoW-bench is composed of a Perception benchmark for categorizing novel sounds and a Cognition benchmark, inspired by Bloom's taxonomy, to assess the abilities to remember, understand, apply, and analyze sound events. For the Cognition benchmark, we additionally introduce distractor questions to evaluate whether models are truly solving problems through listening rather than relying on other heuristics. Experiments with state-of-the-art LALMs show performance far below human levels, indicating a need for stronger auditory grounding in LALMs.

Ссылки и действия