## Контекст
Спектр применений звуковой распознаваемости и рассуждений в машинном обучении растёт, но на данный момент существуют значительные проблемы в их распознавании и интерпретации в городских и промышленных средах. Эти проблемы включают неточности в определении направления потока звука, неточности в вычислении расстояния до источника звука, а также нехватка моделей, умеющих осмысливать динамические звуковые сцены с движущимися источниками звука. Эти трудности становятся критичными в ситуациях, где нужно анализировать и реагировать на звуковые сцены в реальном времени, например, в системах безопасности, системах управления трафиком и системах автоматизированного управления производством. Наша мотивация заключается в создании модели, которая бы не только распознавала звуковые события, но и понимала их пространственные свойства, а также могла бы учитывать движение источников звука в сложных сценах.
## Метод
Мы предложили простой, но эффективный подход, основанный на двух основных элементах. Во-первых, мы представляем **Spatial Audio Encoder**, который обрабатывает пространственные аудио-данные. Этот энкодер выявляет несколько параллельных звуковых событий и оценивает их пространственные атрибуты: направление потока звука (Direction of Arrival, DoA) и расстояние до источника. Это делается на каждом кадре, позволяя модели поддерживать динамические сцены. Во-вторых, для обеспечения гибкости модели в распознавании неизвестных звуковых тегов, мы внедрили **Audio Grounding Model**. Этот модуль использует cross-attention механизм для связывания аудио-фичей с семантическими текстовыми описаниями классов, что позволяет модели обрабатывать неизвестные источники звука. Наконец, для расширения модели до работы с динамическими аудио-сценами, мы создали модель, которая обучается на структурированных пространственных атрибутах, полученных с помощью предыдущих моделей, и использует большой языковой модель (LLM) для ответов на сложные запросы.
## Результаты
Мы проверили нашу модель на нашем собственном датасете, созданном специально для распознавания движущихся источников звука. Мы сравнили нашу модель с базовой моделью, которая не учитывала пространственные атрибуты и движение источников. Результаты показали, что наша модель существенно избавляется от неточностей, связанных с горизонтальным и вертикальным DoA, а также с расстоянием до источника. Например, наша модель улучшила точность распознавания направление звука на 15% в сравнении с базовой моделью, а точность расчёта расстояния увеличилась на 12%. Мы также проверили нашу модель на задаче