Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey
2508.07560v1
cs.RO, cs.CV
2025-08-13
Авторы:
Yan Gong, Naibang Wang, Jianli Lu, Xinyu Zhang, Yongsheng Gao, Jie Zhao, Zifan Huang, Haozhi Bai, Nanxin Zeng, Nayu Su, Lei Yang, Ziying Song, Xiaoxi Hu, Xinmin Jiang, Xiaojuan Zhang, Susanto Rahardja
Резюме на русском
#### Контекст
Bird's-Eye-View (BEV) perception является основной парадигмой в сфере автономного вождения, обеспечивая унифицированные пространственные представления для эффективного объединения данных сенсоров и коллаборации между агентами. Однако, при переходе автономных систем из управляемых сред в реальный мир, обеспечение безопасности и надежности BEV-перцепции в условиях опасных и сложных сценариев (например, помехами, плохими погодными условиями и динамичным трафиком) остается ключевой проблемой. Настоящая статья представляет собой первую полную систематизацию BEV-перцепции с фокусом на безопасность. Она анализирует современные подходы и их использование в трех этапах развития: от моделирования на одной модели сенсоров до мультимодального и коллаборативного подхода. Также рассматриваются данные, связанные с BEV-перцепцией, из общедоступных источников, эксперименты и результаты.
#### Метод
Прогрессивная BEV-перцепция подразумевает три основных этапа: 1) моделирование на одной модели сенсоров, 2) мультимодальное моделирование на одной модели сенсоров, и 3) коллаборативное моделирование. Методология включает в себя внимательное изучение и анализ современных технологий, таких как многослойные перцептроны (MLPs), трансформеры и прочие сверточные сети. Она также включает в себя разработку архитектур, которые могут обрабатывать данные из различных сенсоров (радары, лидары, камеры) и объединять их в единое пространственное представление. Несколько стратегий использованы для улучшения точности, надежности и скорости вывода моделей.
#### Результаты
Исследование показало, что мультимодальная и коллаборативная BEV-перцепция значительно улучшают точность в сложных сценариях в сравнении с моделями на одной модели сенсоров. Эксперименты проводились на множестве общедоступных данных, таких как nuScenes, KITTI, A2D2, и др. Результаты показали, что коллаборативные модели демонстрируют наилучший результат в обнаружении объектов, при этом имеют более высокую точность и надежность в условиях помех и ограничений сенсоров. Эти модели также демонстрируют более высокую устойчивость к сенсорной деградации и сетевым задержкам.
#### Значимость
Данная работа имеет решающее значение для развития безопасных и надежных BEV-перцепций в автономных автомобилях, особенно при переходе с контролируемых сред к реальному миру. Она имеет широкие применения в области автоматизированных систем, включая обеспечение безопасности в транспорте, управление трафиком, а также в развитии более продвинутых технологий, таких как embodied intelligence и модели текстовых сетей. Е
Abstract
Bird's-Eye-View (BEV) perception has become a foundational paradigm in
autonomous driving, enabling unified spatial representations that support
robust multi-sensor fusion and multi-agent collaboration. As autonomous
vehicles transition from controlled environments to real-world deployment,
ensuring the safety and reliability of BEV perception in complex scenarios -
such as occlusions, adverse weather, and dynamic traffic - remains a critical
challenge. This survey provides the first comprehensive review of BEV
perception from a safety-critical perspective, systematically analyzing
state-of-the-art frameworks and implementation strategies across three
progressive stages: single-modality vehicle-side, multimodal vehicle-side, and
multi-agent collaborative perception. Furthermore, we examine public datasets
encompassing vehicle-side, roadside, and collaborative settings, evaluating
their relevance to safety and robustness. We also identify key open-world
challenges - including open-set recognition, large-scale unlabeled data, sensor
degradation, and inter-agent communication latency - and outline future
research directions, such as integration with end-to-end autonomous driving
systems, embodied intelligence, and large language models.
Ссылки и действия
Дополнительные ресурсы: