CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for Collaborative Perception

2509.17107v1 cs.CV, cs.RO, eess.IV 2025-09-24
Авторы:

Lingzhao Kong, Jiacheng Lin, Siyu Li, Kai Luo, Zhiyong Li, Kailun Yang

Резюме на русском

#### Контекст Коллаборативное восприятие (collaborative perception) — это методика, нацеленная на расширение покрытия датчиков и повышение точности восприятия за счет обмена информацией между несколькими агентами. Однако ввиду различий в расположении и углезрениях, агенты часто получают нелинейные и гетерогенные наблюдения. Большинство существующих методов интермедиата-фьюжена (intermediate fusion) стремятся сходить похожие признаки, но недостаточно учитывают различия возможностей восприятия между агентами. Наша мотивация заключается в развитии метода, который не только улучшит данный аспект, но и использует новую архитектуру для эффективного обработки таких различий. #### Метод Мы предлагаем CoBEVMoE — новую архитектуру, ориентированную на BEV (Bird's Eye View, вид сверху), которая использует Dynamic Mixture-of-Experts (DMoE). DMoE генерирует экспертов динамически на основе входных признаков каждого агента. Каждый эксперт оптимизирует свой подход к выделению уникальных признаков, при этом поддерживая общие семантические структуры. Это решение позволяет эффективно обрабатывать различия в расположении и восприятии между агентами. Для дополнительного повышения эффективности мы предложили Dynamic Expert Metric Loss (DEML), который улучшает интер-экспертную диверсификацию и укрепляет дискриминативность полученных представлений. #### Результаты Мы проверили CoBEVMoE на двух датасетах: OPV2V и DAIR-V2X-C. На OPV2V он улучшил IoU (Intersection over Union) для камерного BEV-сегментации на +1.5%, а на DAIR-V2X-C — AP@50 для LiDAR-based 3D объектного детектирования на +3.0%. Эти результаты подтверждают эффективность DMoE в моделировании гетерогенных признаков и улучшении результатов в среде многоагентного восприятия. #### Значимость CoBEVMoE может применяться в различных сценариях, где необходимо объединить восприятие нескольких сенсоров или агентов. Он предлагает преимущества в улучшенной моделировании различий между агентами, что может применяться в системах автоматизированного управления транспортом, видеонаблюдении и других системах коллаборативного восприятия. Мы считаем, что наш предложенный подход может стать основой для новых развитий в подобных задачах. #### Выводы Мы доказали эффективность CoBEVMoE в улучшении результатов в многоагентном восприятии с использованием DMoE и DEML. Наши результаты открывают новые перспективы для развития методов коллаборативного восприятия. Будущие исследования будут сконцентрированы на расширении применений нашей модели на более широкие сценарии и оптимизации ее для реального времени.

Abstract

Collaborative perception aims to extend sensing coverage and improve perception accuracy by sharing information among multiple agents. However, due to differences in viewpoints and spatial positions, agents often acquire heterogeneous observations. Existing intermediate fusion methods primarily focus on aligning similar features, often overlooking the perceptual diversity among agents. To address this limitation, we propose CoBEVMoE, a novel collaborative perception framework that operates in the Bird's Eye View (BEV) space and incorporates a Dynamic Mixture-of-Experts (DMoE) architecture. In DMoE, each expert is dynamically generated based on the input features of a specific agent, enabling it to extract distinctive and reliable cues while attending to shared semantics. This design allows the fusion process to explicitly model both feature similarity and heterogeneity across agents. Furthermore, we introduce a Dynamic Expert Metric Loss (DEML) to enhance inter-expert diversity and improve the discriminability of the fused representation. Extensive experiments on the OPV2V and DAIR-V2X-C datasets demonstrate that CoBEVMoE achieves state-of-the-art performance. Specifically, it improves the IoU for Camera-based BEV segmentation by +1.5% on OPV2V and the AP@50 for LiDAR-based 3D object detection by +3.0% on DAIR-V2X-C, verifying the effectiveness of expert-based heterogeneous feature modeling in multi-agent collaborative perception. The source code will be made publicly available at https://github.com/godk0509/CoBEVMoE.

Ссылки и действия

Связанные статьи

Event-guided 3D Gaussian Splatting for Dynamic Human and Scene Reconstruction

## Контекст Проблема реконструкции динамических людей вместе с статическими сценами из монокурсорных видео остается слож...

2025-09-25

L2M-Reg: Building-level Uncertainty-aware Registration of Outdoor LiDAR Point Cl...

## Контекст Область исследования заключается в автоматизированных технологиях для создания урбанистических цифровых двой...

2025-09-24

DepTR-MOT: Unveiling the Potential of Depth-Informed Trajectory Refinement for M...

## Контекст Visual Multi-Object Tracking (MOT) является кллючевым компонентом распознавания объектов в системах робототе...

2025-09-24

Efficient and Accurate Downfacing Visual Inertial Odometry

#### Контекст Visual Inertial Odometry (VIO) является одной из самых распространенных компьютерно-визуальных технологий,...

2025-09-16