Integrating Spatial and Semantic Embeddings for Stereo Sound Event Localization in Videos
2509.06598v1
eess.AS, cs.AI, cs.LG, eess.IV, eess.SP
2025-09-10
Авторы:
Davide Berghi, Philip J. B. Jackson
Резюме на русском
## Контекст
Стероидный звуковой метод локализации и детекции источника (3D SELD) — это сложная задача, которая объединяет в себе классификацию событий во временном отношении, локализацию в пространстве и оценку дистанции источника. Такая задача требует моделирования взаимосвязей между пространственными, временными и семантическими измерениями. Однако семантические аспекты часто являются наиболее сложными для моделирования в силу ограничений данных и сложности их интеграции с другими измерениями. Обычно SELD-алгоритмы полагаются на многоканальные входные данные, что ограничивает их возможность использовать богатые ресурсы больших предобученных моделей. Этот проект нацелен на решение этих проблем, предлагая новый подход к интеграции семантических и пространственных признаков для улучшения 3D SELD.
## Метод
Мы предлагаем модифицированную архитектуру Conformer, называемую Cross-Modal Conformer, для эффективного ожидания входных семантических признаков. Для этого используются CLAP (Contrastive Language-Aligned Pre-training) для звуковых данных и OWL-ViT (Object-centric World Models with Vision Transformers) для визуальных данных. Эти предобученные модели генерируют семантические признаки, которые в итоге объединяются в Cross-Modal Conformer. Эта модель специально разработана для мультимодального объединения и включает в себя вспомогательные модули для разделения информации по каналам, что учитывает конкретные характеристики каждого канала. Мы также описываем процесс сбора и модификации двух больших аугментированных наборов данных: аудио-визуальных и аудио-только данных. Эти наборы были использованы для предварительного тренирования моделей, которые впоследствии включены в конечную модель для задачи 3D SELD.
## Результаты
Мы проводили эксперименты на DCASE2025 Task 3 Stereo SELD Dataset, сравнивая нашу модель с базовыми системами DCASE и другими участниками. Модель Cross-Modal Conformer показала себя эффективно, достигнув второго места в треке B задачи DCASE 2025. Мы также провели абляционные эксперименты, показав, что интеграция CLAP и OWL-ViT существенно улучшает результаты по сравнению с базовой моделью и даже с моделями, использующими CLAP или OWL-ViT отдельно.
## Значимость
Наш подход имеет широкие возможности применения в реальных сценариях, таких как автоматизированная система локализации звуков, робототехника, мультимедиа и системы анализа видео-аудио. Мы показали, что интеграция семантических признаков может значительно улучшить точность локализации и классификации звуков в стандартных видео, что делает нашу модель привлекательной для практического использования. Будущие исследования будут направлены на уточнение модальностных моделей и расширение воз
Abstract
In this study, we address the multimodal task of stereo sound event
localization and detection with source distance estimation (3D SELD) in regular
video content. 3D SELD is a complex task that combines temporal event
classification with spatial localization, requiring reasoning across spatial,
temporal, and semantic dimensions. The last is arguably the most challenging to
model. Traditional SELD approaches typically rely on multichannel input,
limiting their capacity to benefit from large-scale pre-training due to data
constraints. To overcome this, we enhance a standard SELD architecture with
semantic information by integrating pre-trained, contrastive language-aligned
models: CLAP for audio and OWL-ViT for visual inputs. These embeddings are
incorporated into a modified Conformer module tailored for multimodal fusion,
which we refer to as the Cross-Modal Conformer. We perform an ablation study on
the development set of the DCASE2025 Task3 Stereo SELD Dataset to assess the
individual contributions of the language-aligned models and benchmark against
the DCASE Task 3 baseline systems. Additionally, we detail the curation process
of large synthetic audio and audio-visual datasets used for model pre-training.
These datasets were further expanded through left-right channel swapping
augmentation. Our approach, combining extensive pre-training, model ensembling,
and visual post-processing, achieved second rank in the DCASE 2025 Challenge
Task 3 (Track B), underscoring the effectiveness of our method. Future work
will explore the modality-specific contributions and architectural refinements.