BEVCon: Advancing Bird's Eye View Perception with Contrastive Learning
2508.04702v1
cs.CV
2025-08-09
Авторы:
Ziyang Leng, Jiawei Yang, Zhicheng Ren, Bolei Zhou
Резюме на русском
Мы предлагаем BEVCon — простой, но эффективный подход к улучшению перцепции Bird’s Eye View (BEV) в автономных системах движения. BEV-перцепция, оказавшаяся ключевым компонентом для таких задач, как 3D-обнаружение объектов, сегментация и прогноз траекторий, обычно касается улучшения BEV-кодировщиков и задач-специфичных моделей. Наш подход, напротив, фокусируется на повышении возможностей обучения представлений в этих моделях. Мы предлагаем два модуля для обучения с помощью контрастирования: модуль для очистки экземплярных фич в BEV-пространстве и модуль, улучшающий обработку изображений на входе с помощью пространственного контрастирования. Эти модули, комбинированные с оптимизацией потерь обнаружения, ведут к повышению качества представлений в модели BEV и её специфической архитектуре. В экспериментах на датасете nuScenes BEVCon достигает до 2.4% увеличения метрики mAP, показывая значительную эффективность. Наши результаты открывают новую перспективу в развитии BEV-перцепции, показывая значимость представления в машинном обучении.
Abstract
We present BEVCon, a simple yet effective contrastive learning framework
designed to improve Bird's Eye View (BEV) perception in autonomous driving. BEV
perception offers a top-down-view representation of the surrounding
environment, making it crucial for 3D object detection, segmentation, and
trajectory prediction tasks. While prior work has primarily focused on
enhancing BEV encoders and task-specific heads, we address the underexplored
potential of representation learning in BEV models. BEVCon introduces two
contrastive learning modules: an instance feature contrast module for refining
BEV features and a perspective view contrast module that enhances the image
backbone. The dense contrastive learning designed on top of detection losses
leads to improved feature representations across both the BEV encoder and the
backbone. Extensive experiments on the nuScenes dataset demonstrate that BEVCon
achieves consistent performance gains, achieving up to +2.4% mAP improvement
over state-of-the-art baselines. Our results highlight the critical role of
representation learning in BEV perception and offer a complementary avenue to
conventional task-specific optimizations.
Ссылки и действия
Дополнительные ресурсы: