Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation

2509.16924v1 cs.AI, cs.SD 2025-09-24
Авторы:

Jia Li, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng

Резюме на русском

#### Контекст Аудио-визуальная навигация (AVN) — это задача, в которой искусственный агент должен самостоятельно определить местоположение звукового источника в неизвестных и сложных трехмерных пространствах, используя аудио-визуальные сигналы. Эта задача имеет практическое значение в различных приложениях, таких как поиск звука в помещениях, аудио-визуальный поиск и автоматизация прохождения пространств. Несмотря на прогресс в области звукового и визуального обработки, существуют значительные проблемы, в том числе недостаточное использование спектральных и директивных свойств звука, а также неэффективное объединение множественных модальностей. Эти факторы приводят к снижению точности и надежности в AVN. Наша мотивация заключается в разработке метода, который учитывает эти ограничения и повышает эффективность AVN в различных условиях. #### Метод Мы предлагаем расширенную архитектуру AVN, основанную на динамическом слиянии модальностей и стеро-ориентированному вниманию. Основные компоненты нашего подхода: 1. **Стеро-ориентированный модуль внимания (SAM)**: Этот модуль извлекает и использует стеро-диспаритет — разницу между левым и правым каналом аудио — для улучшения детекции направленных звуков. Это позволяет агенту более точно ориентироваться в пространстве. 2. **Модуль динамического слияния (AGDF)**: Этот модуль адаптирует веса слияния аудио и визуальных признаков в зависимости от аудиосигнала. Это улучшает устойчивость к изменениям окружения и позволяет агенту более эффективно адаптироваться к новым условиям. 3. **Обучение репликации**: Мы используем реинфорсмент-обучение для обучения агенту на реалистичных трехмерных сценах, чтобы обеспечить практическую эффективность. #### Результаты Мы провели эксперименты на двух реалистичных наборах данных: Replica и Matterport3D. Наши результаты показывают, что предложенный подход значительно превосходит существующие методы по успешности навигации и эффективности маршрута. Например, в условиях только аудио, наша модель демонстрирует увеличение успешности навигации на 40% по сравнению с конкурирующими моделями. Это свидетельствует о важности использования спектральных и директивных свойств аудио и динамического слияния множественных модальностей. #### Значимость Наш подход может быть применен в различных областях, включая аудио-визуальный поиск, интеллектуальный дом, интерактивные системы и даже роботизированные системы для поиска звуков. Он предлагает следующие преимущества: - Улучшенная точность в навигации. - Устойчивость к изменениям в окру

Abstract

In audio-visual navigation (AVN) tasks, an embodied agent must autonomously localize a sound source in unknown and complex 3D environments based on audio-visual signals. Existing methods often rely on static modality fusion strategies and neglect the spatial cues embedded in stereo audio, leading to performance degradation in cluttered or occluded scenes. To address these issues, we propose an end-to-end reinforcement learning-based AVN framework with two key innovations: (1) a \textbf{S}tereo-Aware \textbf{A}ttention \textbf{M}odule (\textbf{SAM}), which learns and exploits the spatial disparity between left and right audio channels to enhance directional sound perception; and (2) an \textbf{A}udio-\textbf{G}uided \textbf{D}ynamic \textbf{F}usion Module (\textbf{AGDF}), which dynamically adjusts the fusion ratio between visual and auditory features based on audio cues, thereby improving robustness to environmental changes. Extensive experiments are conducted on two realistic 3D scene datasets, Replica and Matterport3D, demonstrating that our method significantly outperforms existing approaches in terms of navigation success rate and path efficiency. Notably, our model achieves over 40\% improvement under audio-only conditions compared to the best-performing baselines. These results highlight the importance of explicitly modeling spatial cues from stereo channels and performing deep multi-modal fusion for robust and efficient audio-visual navigation.

Ссылки и действия

Связанные статьи

ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection

## Контекст В настоящее время deepfake-контент становится все более распространенным, что создает серьезные проблемы в о...

2025-08-27