Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey

2508.07560v1 cs.RO, cs.CV 2025-08-13

Авторы:

Yan Gong, Naibang Wang, Jianli Lu, Xinyu Zhang, Yongsheng Gao, Jie Zhao, Zifan Huang, Haozhi Bai, Nanxin Zeng, Nayu Su, Lei Yang, Ziying Song, Xiaoxi Hu, Xinmin Jiang, Xiaojuan Zhang, Susanto Rahardja

Резюме на русском

#### Контекст Bird's-Eye-View (BEV) perception является основной парадигмой в сфере автономного вождения, обеспечивая унифицированные пространственные представления для эффективного объединения данных сенсоров и коллаборации между агентами. Однако, при переходе автономных систем из управляемых сред в реальный мир, обеспечение безопасности и надежности BEV-перцепции в условиях опасных и сложных сценариев (например, помехами, плохими погодными условиями и динамичным трафиком) остается ключевой проблемой. Настоящая статья представляет собой первую полную систематизацию BEV-перцепции с фокусом на безопасность. Она анализирует современные подходы и их использование в трех этапах развития: от моделирования на одной модели сенсоров до мультимодального и коллаборативного подхода. Также рассматриваются данные, связанные с BEV-перцепцией, из общедоступных источников, эксперименты и результаты. #### Метод Прогрессивная BEV-перцепция подразумевает три основных этапа: 1) моделирование на одной модели сенсоров, 2) мультимодальное моделирование на одной модели сенсоров, и 3) коллаборативное моделирование. Методология включает в себя внимательное изучение и анализ современных технологий, таких как многослойные перцептроны (MLPs), трансформеры и прочие сверточные сети. Она также включает в себя разработку архитектур, которые могут обрабатывать данные из различных сенсоров (радары, лидары, камеры) и объединять их в единое пространственное представление. Несколько стратегий использованы для улучшения точности, надежности и скорости вывода моделей. #### Результаты Исследование показало, что мультимодальная и коллаборативная BEV-перцепция значительно улучшают точность в сложных сценариях в сравнении с моделями на одной модели сенсоров. Эксперименты проводились на множестве общедоступных данных, таких как nuScenes, KITTI, A2D2, и др. Результаты показали, что коллаборативные модели демонстрируют наилучший результат в обнаружении объектов, при этом имеют более высокую точность и надежность в условиях помех и ограничений сенсоров. Эти модели также демонстрируют более высокую устойчивость к сенсорной деградации и сетевым задержкам. #### Значимость Данная работа имеет решающее значение для развития безопасных и надежных BEV-перцепций в автономных автомобилях, особенно при переходе с контролируемых сред к реальному миру. Она имеет широкие применения в области автоматизированных систем, включая обеспечение безопасности в транспорте, управление трафиком, а также в развитии более продвинутых технологий, таких как embodied intelligence и модели текстовых сетей. Е

Abstract

Bird's-Eye-View (BEV) perception has become a foundational paradigm in autonomous driving, enabling unified spatial representations that support robust multi-sensor fusion and multi-agent collaboration. As autonomous vehicles transition from controlled environments to real-world deployment, ensuring the safety and reliability of BEV perception in complex scenarios - such as occlusions, adverse weather, and dynamic traffic - remains a critical challenge. This survey provides the first comprehensive review of BEV perception from a safety-critical perspective, systematically analyzing state-of-the-art frameworks and implementation strategies across three progressive stages: single-modality vehicle-side, multimodal vehicle-side, and multi-agent collaborative perception. Furthermore, we examine public datasets encompassing vehicle-side, roadside, and collaborative settings, evaluating their relevance to safety and robustness. We also identify key open-world challenges - including open-set recognition, large-scale unlabeled data, sensor degradation, and inter-agent communication latency - and outline future research directions, such as integration with end-to-end autonomous driving systems, embodied intelligence, and large language models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация