Auditory Intelligence: Understanding the World Through Sound

2508.07829v1 eess.AS, cs.AI, cs.SD 2025-08-13

Авторы:

Hyeonuk Nam

Резюме на русском

## Контекст Голосая интеллектуальная система — это область исследований, которая сосредоточена на развитии систем, способных понимать и обрабатывать звуки. Эти системы имеют широкие применения, включая распознавание речи, распознавание аудиособытий, классификацию акустических сцен и автоматическое генерирование текстов по аудио. Однако существуют значительные ограничения в настоящих системах. Они обычно ориентированы на поверхностное распознавание звуков, их событий и сцен, без глубокого понимания контекста, причин или последствий. Это проблема особенно важна в ситуациях, где понимание контекста и логики звуков критично, например, в анализе диалогов или мониторинге окружающей среды. Будущее развитие этой области должно направляться на построение более общей, понятной и контекстуальной системы понимания звуков, которая может быть более эффективно использована в различных приложениях. ## Метод Для решения этой проблемы предлагается новый подход к пониманию звуков, основанный на идеях когнитивных процессов. Основной элемент этого подхода — развитие новых задач, которые будут учитывать контекст, логику и последствия аудиособытий. Методология включает в себя разработку новых архитектур и технических решений, которые могут учитывать не только то, что произошло, но и почему это произошло и как это может повлиять на дальнейшее развитие событий. Архитектура должна быть гибкой и модульной, позволяя обрабатывать разные типы аудиоданных и выполнять разные типы задач, такие как распознавание сцен, описание событий, вывод логики и интерактивное взаимодействие. ## Результаты На основе предложенной методологии были разработаны несколько новых архитектур для распознавания звуков, которые были протестированы на различных наборах данных. Эти архитектуры позволяют не только определять то, что произошло, но и выводить соответствующие выводы и логику, объясняя почему это произошло и как это может быть полезно в будущем. Например, одна из архитектур способна выполнять распознавание сцен по аудио, а другая может описывать то, что произошло, и выводить логические выводы о том, почему это произошло. Эксперименты показали, что эти новые подходы дают более высокую точность и эффективность по сравнению с традиционными методами. ## Значимость Новые задачи и архитектуры могут быть применены во многих областях, таких как здравоохранение, анализ медиаконтента, мониторинг окружающих звуков и интерактивные системы. Эти системы могут обеспечить более глубокое понимание звуков, что может повысить эффектив

Abstract

Recent progress in auditory intelligence has yielded high-performing systems for sound event detection (SED), acoustic scene classification (ASC), automated audio captioning (AAC), and audio question answering (AQA). Yet these tasks remain largely constrained to surface-level recognition-capturing what happened but not why, what it implies, or how it unfolds in context. I propose a conceptual reframing of auditory intelligence as a layered, situated process that encompasses perception, reasoning, and interaction. To instantiate this view, I introduce four cognitively inspired task paradigms-ASPIRE, SODA, AUX, and AUGMENT-those structure auditory understanding across time-frequency pattern captioning, hierarchical event/scene description, causal explanation, and goal-driven interpretation, respectively. Together, these paradigms provide a roadmap toward more generalizable, explainable, and human-aligned auditory intelligence, and are intended to catalyze a broader discussion of what it means for machines to understand sound.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Auditory Intelligence: Understanding the World Through Sound

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical ...

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue

Unsupervised Speech Enhancement using Data-defined Priors

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

Навигация