AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
2509.17641v1
cs.CL, cs.AI, cs.LG, cs.SD
2025-09-24
Авторы:
Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee
Резюме на русском
#### Контекст
Осуществление многомерных взаимодействий между текстом и аудио является ключевым запросом в современных текстовых моделях. Хотя люди способны осуществлять понятие аудиосвойств, таких как звуковой тон, громкость или связь звука с источником, исходя из знаний пространства, большинство текстовых моделей страдают от малой способности обрабатывать такие свойства. Этот ряд ограничений может стать препятствием для эффективных многомодальных приложений. Одним из шагов к решению этой проблемы является разработка AuditoryBench++, которая представляет собой новую меру для оценки моделей текстов в части их способности к аудиокоммуникации и соотнесению.
#### Метод
**AuditoryBench++** представляет собой набор задач, которые разбиваются на две группы: базовые аудиосравнения и социально-контекстуальные рассуждения. Методика использует специальные токены для синтеза информации в процессе вывода. Таким образом, модель может генерировать и анализировать аудиоконцепты, используя свои внутренние механизмы. Для оценки моделей был разработан алгоритм **AIR-CoT** (Auditory Imagination Reasoning with Chain-of-Thought), который имеет возможность расширять текстовую информацию, используя аудиоконцепты в процессе рассуждения.
#### Результаты
Мы проводили эксперименты с различными текстовыми моделями, включая обученные с нуля LLMs и модели с многомодальными возможностями. Результаты показали, что AIR-CoT не только превосходит готовые модели без дополнительных модификаций, но и существенно улучшает результаты в сравнении с моделями, в которых использовался дополнительный аудиоконтекст. Это улучшение является примечательным, так как AIR-CoT не требует внешних сенсорных данных, таких как аудиозаписи.
#### Значимость
Аудиокомпетентность, предлагаемая **AuditoryBench++**, может найти применение в широком спектре многомодальных приложений, таких как системы опоры на текст, роботы-компаньоны, и обозреватели смысла звука. Этот подход открывает новые возможности для лучшего понимания и интерактивности с многомодальными текстовыми моделями. Благодаря AIR-CoT, модели могут достичь более высокого уровня рациональности в аудиоконтекстах, не требуя дополнительных аудиоданных.
#### Выводы
**AuditoryBench++** и AIR-CoT являются прорывными направлениями в области развития моделей, которые могут обрабатывать аудиоконцепты. Наши результаты открывают путь к будущим исследованиям в области взаимодействия текста и аудио, призывая к дальнейшему исследованию аудиокомпетентности в текстовых моделях. Мы считаем, что этот подход может значительно улучшить многомодальные приложения, даруя и
Abstract
Even without directly hearing sounds, humans can effortlessly reason about
auditory properties, such as pitch, loudness, or sound-source associations,
drawing on auditory commonsense. In contrast, language models often lack this
capability, limiting their effectiveness in multimodal interactions. As an
initial step to address this gap, we present AuditoryBench++, a comprehensive
benchmark for evaluating auditory knowledge and reasoning in text-only
settings. The benchmark encompasses tasks that range from basic auditory
comparisons to contextually grounded reasoning, enabling fine-grained analysis
of how models process and integrate auditory concepts. In addition, we
introduce AIR-CoT, a novel auditory imagination reasoning method that generates
and integrates auditory information during inference through span detection
with special tokens and knowledge injection. Extensive experiments with recent
LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both
the off-the-shelf models and those augmented with auditory knowledge. The
project page is available at https://auditorybenchpp.github.io.