📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Zanxu Wang, Homayoon Beigi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper addresses data quality issues in multimodal emotion recognition in conversation (MERC) through systematic quality control and multi-stage transfer learning. We implement a quality control pipeline for MELD and IEMOCAP datasets that validates speaker identity, audio-text alignment, and face detection. We leverage transfer learning from speaker and face recognition, assuming that identity-discriminative embeddings capture not only stable acoustic and Facial traits but also person-specif...
📄 Integrating Spatial and Semantic Embeddings for Stereo Sound Event Localization in Videos
2025-09-10Авторы:
Davide Berghi, Philip J. B. Jackson
## Контекст
Стероидный звуковой метод локализации и детекции источника (3D SELD) — это сложная задача, которая объединяет в себе классификацию событий во временном отношении, локализацию в пространстве и оценку дистанции источника. Такая задача требует моделирования взаимосвязей между пространственными, временными и семантическими измерениями. Однако семантические аспекты часто являются наиболее сложными для моделирования в силу ограничений данных и сложности их интеграции с другими измерениями. Обычно SELD-алгоритмы полагаются на многоканальные входные данные, что ограничивает их возможность использовать богатые ресурсы больших предобученных моделей. Этот проект нацелен на решение этих проблем, предлагая новый подход к интеграции семантических и пространственных признаков для улучшения 3D SELD.
## Метод
Мы предлагаем модифицированную архитектуру Conformer, называемую Cross-Modal Conformer, для эффективного ожидания входных семантических признаков. Для этого используются CLAP (Contrastive Language-Aligned Pre-training) для звуковых данных и OWL-ViT (Object-centric World Models with Vision Transformers) для визуальных данных. Эти предобученные модели генерируют семантические признаки, которые в итоге объединяются в Cross-Modal Conformer. Эта модель специально разработана для мультимодального объединения и включает в себя вспомогательные модули для разделения информации по каналам, что учитывает конкретные характеристики каждого канала. Мы также описываем процесс сбора и модификации двух больших аугментированных наборов данных: аудио-визуальных и аудио-только данных. Эти наборы были использованы для предварительного тренирования моделей, которые впоследствии включены в конечную модель для задачи 3D SELD.
## Результаты
Мы проводили эксперименты на DCASE2025 Task 3 Stereo SELD Dataset, сравнивая нашу модель с базовыми системами DCASE и другими участниками. Модель Cross-Modal Conformer показала себя эффективно, достигнув второго места в треке B задачи DCASE 2025. Мы также провели абляционные эксперименты, показав, что интеграция CLAP и OWL-ViT существенно улучшает результаты по сравнению с базовой моделью и даже с моделями, использующими CLAP или OWL-ViT отдельно.
## Значимость
Наш подход имеет широкие возможности применения в реальных сценариях, таких как автоматизированная система локализации звуков, робототехника, мультимедиа и системы анализа видео-аудио. Мы показали, что интеграция семантических признаков может значительно улучшить точность локализации и классификации звуков в стандартных видео, что делает нашу модель привлекательной для практического использования. Будущие исследования будут направлены на уточнение модальностных моделей и расширение воз
Annotation:
In this study, we address the multimodal task of stereo sound event
localization and detection with source distance estimation (3D SELD) in regular
video content. 3D SELD is a complex task that combines temporal event
classification with spatial localization, requiring reasoning across spatial,
temporal, and semantic dimensions. The last is arguably the most challenging to
model. Traditional SELD approaches typically rely on multichannel input,
limiting their capacity to benefit from large-scale...