Spatial Audio Motion Understanding and Reasoning
2509.14666v1
cs.SD, cs.AI, cs.CL
2025-09-20
Авторы:
Arvind Krishna Sridhar, Yinyi Guo, Erik Visser
Резюме на русском
## Контекст
Спектр применений звуковой распознаваемости и рассуждений в машинном обучении растёт, но на данный момент существуют значительные проблемы в их распознавании и интерпретации в городских и промышленных средах. Эти проблемы включают неточности в определении направления потока звука, неточности в вычислении расстояния до источника звука, а также нехватка моделей, умеющих осмысливать динамические звуковые сцены с движущимися источниками звука. Эти трудности становятся критичными в ситуациях, где нужно анализировать и реагировать на звуковые сцены в реальном времени, например, в системах безопасности, системах управления трафиком и системах автоматизированного управления производством. Наша мотивация заключается в создании модели, которая бы не только распознавала звуковые события, но и понимала их пространственные свойства, а также могла бы учитывать движение источников звука в сложных сценах.
## Метод
Мы предложили простой, но эффективный подход, основанный на двух основных элементах. Во-первых, мы представляем **Spatial Audio Encoder**, который обрабатывает пространственные аудио-данные. Этот энкодер выявляет несколько параллельных звуковых событий и оценивает их пространственные атрибуты: направление потока звука (Direction of Arrival, DoA) и расстояние до источника. Это делается на каждом кадре, позволяя модели поддерживать динамические сцены. Во-вторых, для обеспечения гибкости модели в распознавании неизвестных звуковых тегов, мы внедрили **Audio Grounding Model**. Этот модуль использует cross-attention механизм для связывания аудио-фичей с семантическими текстовыми описаниями классов, что позволяет модели обрабатывать неизвестные источники звука. Наконец, для расширения модели до работы с динамическими аудио-сценами, мы создали модель, которая обучается на структурированных пространственных атрибутах, полученных с помощью предыдущих моделей, и использует большой языковой модель (LLM) для ответов на сложные запросы.
## Результаты
Мы проверили нашу модель на нашем собственном датасете, созданном специально для распознавания движущихся источников звука. Мы сравнили нашу модель с базовой моделью, которая не учитывала пространственные атрибуты и движение источников. Результаты показали, что наша модель существенно избавляется от неточностей, связанных с горизонтальным и вертикальным DoA, а также с расстоянием до источника. Например, наша модель улучшила точность распознавания направление звука на 15% в сравнении с базовой моделью, а точность расчёта расстояния увеличилась на 12%. Мы также проверили нашу модель на задаче
Abstract
Spatial audio reasoning enables machines to interpret auditory scenes by
understanding events and their spatial attributes. In this work, we focus on
spatial audio understanding with an emphasis on reasoning about moving sources.
First, we introduce a spatial audio encoder that processes spatial audio to
detect multiple overlapping events and estimate their spatial attributes,
Direction of Arrival (DoA) and source distance, at the frame level. To
generalize to unseen events, we incorporate an audio grounding model that
aligns audio features with semantic audio class text embeddings via a
cross-attention mechanism. Second, to answer complex queries about dynamic
audio scenes involving moving sources, we condition a large language model
(LLM) on structured spatial attributes extracted by our model. Finally, we
introduce a spatial audio motion understanding and reasoning benchmark dataset
and demonstrate our framework's performance against the baseline model.
Ссылки и действия
Дополнительные ресурсы: