Integrating Spatial and Semantic Embeddings for Stereo Sound Event Localization in Videos

2509.06598v1 eess.AS, cs.AI, cs.LG, eess.IV, eess.SP 2025-09-10
Авторы:

Davide Berghi, Philip J. B. Jackson

Резюме на русском

## Контекст Стероидный звуковой метод локализации и детекции источника (3D SELD) — это сложная задача, которая объединяет в себе классификацию событий во временном отношении, локализацию в пространстве и оценку дистанции источника. Такая задача требует моделирования взаимосвязей между пространственными, временными и семантическими измерениями. Однако семантические аспекты часто являются наиболее сложными для моделирования в силу ограничений данных и сложности их интеграции с другими измерениями. Обычно SELD-алгоритмы полагаются на многоканальные входные данные, что ограничивает их возможность использовать богатые ресурсы больших предобученных моделей. Этот проект нацелен на решение этих проблем, предлагая новый подход к интеграции семантических и пространственных признаков для улучшения 3D SELD. ## Метод Мы предлагаем модифицированную архитектуру Conformer, называемую Cross-Modal Conformer, для эффективного ожидания входных семантических признаков. Для этого используются CLAP (Contrastive Language-Aligned Pre-training) для звуковых данных и OWL-ViT (Object-centric World Models with Vision Transformers) для визуальных данных. Эти предобученные модели генерируют семантические признаки, которые в итоге объединяются в Cross-Modal Conformer. Эта модель специально разработана для мультимодального объединения и включает в себя вспомогательные модули для разделения информации по каналам, что учитывает конкретные характеристики каждого канала. Мы также описываем процесс сбора и модификации двух больших аугментированных наборов данных: аудио-визуальных и аудио-только данных. Эти наборы были использованы для предварительного тренирования моделей, которые впоследствии включены в конечную модель для задачи 3D SELD. ## Результаты Мы проводили эксперименты на DCASE2025 Task 3 Stereo SELD Dataset, сравнивая нашу модель с базовыми системами DCASE и другими участниками. Модель Cross-Modal Conformer показала себя эффективно, достигнув второго места в треке B задачи DCASE 2025. Мы также провели абляционные эксперименты, показав, что интеграция CLAP и OWL-ViT существенно улучшает результаты по сравнению с базовой моделью и даже с моделями, использующими CLAP или OWL-ViT отдельно. ## Значимость Наш подход имеет широкие возможности применения в реальных сценариях, таких как автоматизированная система локализации звуков, робототехника, мультимедиа и системы анализа видео-аудио. Мы показали, что интеграция семантических признаков может значительно улучшить точность локализации и классификации звуков в стандартных видео, что делает нашу модель привлекательной для практического использования. Будущие исследования будут направлены на уточнение модальностных моделей и расширение воз

Abstract

In this study, we address the multimodal task of stereo sound event localization and detection with source distance estimation (3D SELD) in regular video content. 3D SELD is a complex task that combines temporal event classification with spatial localization, requiring reasoning across spatial, temporal, and semantic dimensions. The last is arguably the most challenging to model. Traditional SELD approaches typically rely on multichannel input, limiting their capacity to benefit from large-scale pre-training due to data constraints. To overcome this, we enhance a standard SELD architecture with semantic information by integrating pre-trained, contrastive language-aligned models: CLAP for audio and OWL-ViT for visual inputs. These embeddings are incorporated into a modified Conformer module tailored for multimodal fusion, which we refer to as the Cross-Modal Conformer. We perform an ablation study on the development set of the DCASE2025 Task3 Stereo SELD Dataset to assess the individual contributions of the language-aligned models and benchmark against the DCASE Task 3 baseline systems. Additionally, we detail the curation process of large synthetic audio and audio-visual datasets used for model pre-training. These datasets were further expanded through left-right channel swapping augmentation. Our approach, combining extensive pre-training, model ensembling, and visual post-processing, achieved second rank in the DCASE 2025 Challenge Task 3 (Track B), underscoring the effectiveness of our method. Future work will explore the modality-specific contributions and architectural refinements.

Ссылки и действия