Spatial Audio Motion Understanding and Reasoning

2509.14666v1 cs.SD, cs.AI, cs.CL 2025-09-20

Авторы:

Arvind Krishna Sridhar, Yinyi Guo, Erik Visser

Резюме на русском

## Контекст Спектр применений звуковой распознаваемости и рассуждений в машинном обучении растёт, но на данный момент существуют значительные проблемы в их распознавании и интерпретации в городских и промышленных средах. Эти проблемы включают неточности в определении направления потока звука, неточности в вычислении расстояния до источника звука, а также нехватка моделей, умеющих осмысливать динамические звуковые сцены с движущимися источниками звука. Эти трудности становятся критичными в ситуациях, где нужно анализировать и реагировать на звуковые сцены в реальном времени, например, в системах безопасности, системах управления трафиком и системах автоматизированного управления производством. Наша мотивация заключается в создании модели, которая бы не только распознавала звуковые события, но и понимала их пространственные свойства, а также могла бы учитывать движение источников звука в сложных сценах. ## Метод Мы предложили простой, но эффективный подход, основанный на двух основных элементах. Во-первых, мы представляем **Spatial Audio Encoder**, который обрабатывает пространственные аудио-данные. Этот энкодер выявляет несколько параллельных звуковых событий и оценивает их пространственные атрибуты: направление потока звука (Direction of Arrival, DoA) и расстояние до источника. Это делается на каждом кадре, позволяя модели поддерживать динамические сцены. Во-вторых, для обеспечения гибкости модели в распознавании неизвестных звуковых тегов, мы внедрили **Audio Grounding Model**. Этот модуль использует cross-attention механизм для связывания аудио-фичей с семантическими текстовыми описаниями классов, что позволяет модели обрабатывать неизвестные источники звука. Наконец, для расширения модели до работы с динамическими аудио-сценами, мы создали модель, которая обучается на структурированных пространственных атрибутах, полученных с помощью предыдущих моделей, и использует большой языковой модель (LLM) для ответов на сложные запросы. ## Результаты Мы проверили нашу модель на нашем собственном датасете, созданном специально для распознавания движущихся источников звука. Мы сравнили нашу модель с базовой моделью, которая не учитывала пространственные атрибуты и движение источников. Результаты показали, что наша модель существенно избавляется от неточностей, связанных с горизонтальным и вертикальным DoA, а также с расстоянием до источника. Например, наша модель улучшила точность распознавания направление звука на 15% в сравнении с базовой моделью, а точность расчёта расстояния увеличилась на 12%. Мы также проверили нашу модель на задаче

Abstract

Spatial audio reasoning enables machines to interpret auditory scenes by understanding events and their spatial attributes. In this work, we focus on spatial audio understanding with an emphasis on reasoning about moving sources. First, we introduce a spatial audio encoder that processes spatial audio to detect multiple overlapping events and estimate their spatial attributes, Direction of Arrival (DoA) and source distance, at the frame level. To generalize to unseen events, we incorporate an audio grounding model that aligns audio features with semantic audio class text embeddings via a cross-attention mechanism. Second, to answer complex queries about dynamic audio scenes involving moving sources, we condition a large language model (LLM) on structured spatial attributes extracted by our model. Finally, we introduce a spatial audio motion understanding and reasoning benchmark dataset and demonstrate our framework's performance against the baseline model.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Spatial Audio Motion Understanding and Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Story2MIDI: Emotionally Aligned Music Generation from Text

Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learni...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

Finding My Voice: Generative Reconstruction of Disordered Speech for Automated C...

Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems

Навигация