CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for Collaborative Perception
2509.17107v1
cs.CV, cs.RO, eess.IV
2025-09-24
Авторы:
Lingzhao Kong, Jiacheng Lin, Siyu Li, Kai Luo, Zhiyong Li, Kailun Yang
Резюме на русском
#### Контекст
Коллаборативное восприятие (collaborative perception) — это методика, нацеленная на расширение покрытия датчиков и повышение точности восприятия за счет обмена информацией между несколькими агентами. Однако ввиду различий в расположении и углезрениях, агенты часто получают нелинейные и гетерогенные наблюдения. Большинство существующих методов интермедиата-фьюжена (intermediate fusion) стремятся сходить похожие признаки, но недостаточно учитывают различия возможностей восприятия между агентами. Наша мотивация заключается в развитии метода, который не только улучшит данный аспект, но и использует новую архитектуру для эффективного обработки таких различий.
#### Метод
Мы предлагаем CoBEVMoE — новую архитектуру, ориентированную на BEV (Bird's Eye View, вид сверху), которая использует Dynamic Mixture-of-Experts (DMoE). DMoE генерирует экспертов динамически на основе входных признаков каждого агента. Каждый эксперт оптимизирует свой подход к выделению уникальных признаков, при этом поддерживая общие семантические структуры. Это решение позволяет эффективно обрабатывать различия в расположении и восприятии между агентами. Для дополнительного повышения эффективности мы предложили Dynamic Expert Metric Loss (DEML), который улучшает интер-экспертную диверсификацию и укрепляет дискриминативность полученных представлений.
#### Результаты
Мы проверили CoBEVMoE на двух датасетах: OPV2V и DAIR-V2X-C. На OPV2V он улучшил IoU (Intersection over Union) для камерного BEV-сегментации на +1.5%, а на DAIR-V2X-C — AP@50 для LiDAR-based 3D объектного детектирования на +3.0%. Эти результаты подтверждают эффективность DMoE в моделировании гетерогенных признаков и улучшении результатов в среде многоагентного восприятия.
#### Значимость
CoBEVMoE может применяться в различных сценариях, где необходимо объединить восприятие нескольких сенсоров или агентов. Он предлагает преимущества в улучшенной моделировании различий между агентами, что может применяться в системах автоматизированного управления транспортом, видеонаблюдении и других системах коллаборативного восприятия. Мы считаем, что наш предложенный подход может стать основой для новых развитий в подобных задачах.
#### Выводы
Мы доказали эффективность CoBEVMoE в улучшении результатов в многоагентном восприятии с использованием DMoE и DEML. Наши результаты открывают новые перспективы для развития методов коллаборативного восприятия. Будущие исследования будут сконцентрированы на расширении применений нашей модели на более широкие сценарии и оптимизации ее для реального времени.
Abstract
Collaborative perception aims to extend sensing coverage and improve
perception accuracy by sharing information among multiple agents. However, due
to differences in viewpoints and spatial positions, agents often acquire
heterogeneous observations. Existing intermediate fusion methods primarily
focus on aligning similar features, often overlooking the perceptual diversity
among agents. To address this limitation, we propose CoBEVMoE, a novel
collaborative perception framework that operates in the Bird's Eye View (BEV)
space and incorporates a Dynamic Mixture-of-Experts (DMoE) architecture. In
DMoE, each expert is dynamically generated based on the input features of a
specific agent, enabling it to extract distinctive and reliable cues while
attending to shared semantics. This design allows the fusion process to
explicitly model both feature similarity and heterogeneity across agents.
Furthermore, we introduce a Dynamic Expert Metric Loss (DEML) to enhance
inter-expert diversity and improve the discriminability of the fused
representation. Extensive experiments on the OPV2V and DAIR-V2X-C datasets
demonstrate that CoBEVMoE achieves state-of-the-art performance. Specifically,
it improves the IoU for Camera-based BEV segmentation by +1.5% on OPV2V and the
AP@50 for LiDAR-based 3D object detection by +3.0% on DAIR-V2X-C, verifying the
effectiveness of expert-based heterogeneous feature modeling in multi-agent
collaborative perception. The source code will be made publicly available at
https://github.com/godk0509/CoBEVMoE.