WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations
2508.20976v1
cs.SD, cs.AI, eess.AS
2025-08-30
Авторы:
Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim
Резюме на русском
## Контекст
За последние годы, аудио-языковые модели (Audiolanguage Models, ALMs) получили популярность благодаря их удачному слиянию возможностей языкового понимания и распознавания звуков. Однако далеко не всегда эти модели достигают высокого уровня гибкости и точности при работе с нестандартными задачами, которые требуют скорости резолюции и точности распознавания сложных акустических сигналов.
Например, модели должны быть способны определять длительность звука, его тон, интенсивность и другие мелкие акустические характеристики, чтобы распознавать звуки в реальных условиях. Эти данные являются ключевыми для распространенных приложений, таких как звуковые системы оповещения, анализ голосов и аудиосканирование в животных. Однако существующие модели часто не обладают достаточным уровнем точности и универсальности, чтобы справиться с нестандартными ситуациями.
Для направления исследований в этом направлений, авторы представили WoW-Bench — бенчмарк, ориентированный на оценку тонкой акустической перцепции и когнитивных способностей моделей аудио-языка.
## Метод
WoW-Bench представляет собой два основных компонента: Perception Benchmark и Cognition Benchmark.
В Perception Benchmark реализована задача классификации звуков на основе голосов морских млекопитающих. Модели должны классифицировать звуки в классы, например, свист, рычание и т. д., используя тон, продолжительность и другие акустические свойства. Данная задача позволяет оценить уровень точности моделей при работе с нетипичными акустическими сигналами.
Cognition Benchmark является более сложной и включает в себя различные задачи, основанные на Bloom's taxonomy, чтобы отразить уровень глубины понимания звука. Здесь модели должны выполнить задачи, такие как запоминание звуков, обобщение их, сравнение с другими звуками или их анализ. Например, модель может получить задачу "найди звук A, который наиболее похож на звук B, но не тем же звуком C".
Особенностью Cognition Benchmark является внедрение distractor-задач, которые требуют от моделей удостовериться в том, что они решают задачу на основе звукового анализа, а не других неспецифичных способов.
## Результаты
Для оценки WoW-Bench, авторы применили несколько современных аудио-языковых моделей, включая те, которые достигли высоких результатов в области текстового понимания. Измеренное качество моделей было сравнено с задачами, выполненными человеком.
Качество моделей оказалось значительно ниже уровня человеческого уровня, особенно в задачах, требующих тонкого акустического анализа. Например, модели с удивительно низкой точностью распознавали звуки в зоогео
Abstract
Large audio language models (LALMs) extend language understanding into the
auditory domain, yet their ability to perform low-level listening, such as
pitch and duration detection, remains underexplored. However, low-level
listening is critical for real-world, out-of-distribution tasks where models
must reason about unfamiliar sounds based on fine-grained acoustic cues. To
address this gap, we introduce the World-of-Whale benchmark (WoW-Bench) to
evaluate low-level auditory perception and cognition using marine mammal
vocalizations. WoW-bench is composed of a Perception benchmark for categorizing
novel sounds and a Cognition benchmark, inspired by Bloom's taxonomy, to assess
the abilities to remember, understand, apply, and analyze sound events. For the
Cognition benchmark, we additionally introduce distractor questions to evaluate
whether models are truly solving problems through listening rather than relying
on other heuristics. Experiments with state-of-the-art LALMs show performance
far below human levels, indicating a need for stronger auditory grounding in
LALMs.
Ссылки и действия
Дополнительные ресурсы: