AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

2509.17641v1 cs.CL, cs.AI, cs.LG, cs.SD 2025-09-24

Авторы:

Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee

Резюме на русском

#### Контекст Осуществление многомерных взаимодействий между текстом и аудио является ключевым запросом в современных текстовых моделях. Хотя люди способны осуществлять понятие аудиосвойств, таких как звуковой тон, громкость или связь звука с источником, исходя из знаний пространства, большинство текстовых моделей страдают от малой способности обрабатывать такие свойства. Этот ряд ограничений может стать препятствием для эффективных многомодальных приложений. Одним из шагов к решению этой проблемы является разработка AuditoryBench++, которая представляет собой новую меру для оценки моделей текстов в части их способности к аудиокоммуникации и соотнесению. #### Метод **AuditoryBench++** представляет собой набор задач, которые разбиваются на две группы: базовые аудиосравнения и социально-контекстуальные рассуждения. Методика использует специальные токены для синтеза информации в процессе вывода. Таким образом, модель может генерировать и анализировать аудиоконцепты, используя свои внутренние механизмы. Для оценки моделей был разработан алгоритм **AIR-CoT** (Auditory Imagination Reasoning with Chain-of-Thought), который имеет возможность расширять текстовую информацию, используя аудиоконцепты в процессе рассуждения. #### Результаты Мы проводили эксперименты с различными текстовыми моделями, включая обученные с нуля LLMs и модели с многомодальными возможностями. Результаты показали, что AIR-CoT не только превосходит готовые модели без дополнительных модификаций, но и существенно улучшает результаты в сравнении с моделями, в которых использовался дополнительный аудиоконтекст. Это улучшение является примечательным, так как AIR-CoT не требует внешних сенсорных данных, таких как аудиозаписи. #### Значимость Аудиокомпетентность, предлагаемая **AuditoryBench++**, может найти применение в широком спектре многомодальных приложений, таких как системы опоры на текст, роботы-компаньоны, и обозреватели смысла звука. Этот подход открывает новые возможности для лучшего понимания и интерактивности с многомодальными текстовыми моделями. Благодаря AIR-CoT, модели могут достичь более высокого уровня рациональности в аудиоконтекстах, не требуя дополнительных аудиоданных. #### Выводы **AuditoryBench++** и AIR-CoT являются прорывными направлениями в области развития моделей, которые могут обрабатывать аудиоконцепты. Наши результаты открывают путь к будущим исследованиям в области взаимодействия текста и аудио, призывая к дальнейшему исследованию аудиокомпетентности в текстовых моделях. Мы считаем, что этот подход может значительно улучшить многомодальные приложения, даруя и

Abstract

Even without directly hearing sounds, humans can effortlessly reason about auditory properties, such as pitch, loudness, or sound-source associations, drawing on auditory commonsense. In contrast, language models often lack this capability, limiting their effectiveness in multimodal interactions. As an initial step to address this gap, we present AuditoryBench++, a comprehensive benchmark for evaluating auditory knowledge and reasoning in text-only settings. The benchmark encompasses tasks that range from basic auditory comparisons to contextually grounded reasoning, enabling fine-grained analysis of how models process and integrate auditory concepts. In addition, we introduce AIR-CoT, a novel auditory imagination reasoning method that generates and integrates auditory information during inference through span detection with special tokens and knowledge injection. Extensive experiments with recent LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both the off-the-shelf models and those augmented with auditory knowledge. The project page is available at https://auditorybenchpp.github.io.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Point of Order: Action-Aware LLM Persona Modeling for Realistic Civic Simulation

PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambigua...

Навигация