An Initial Study of Bird's-Eye View Generation for Autonomous Vehicles using Cross-View Transformers

2508.12520v1 cs.CV, cs.AI 2025-08-20

Авторы:

Felipe Carlos dos Santos, Eric Aislan Antonelo, Gustavo Claudio Karl Couto

Резюме на русском

#### Контекст Автоматизированное управление транспортным средством требует большого объема информации о среде, в которой он работает. Одним из ключевых элементов для анализа этой информации является Bird's-Eye View (BEV) — визуализация среды с виду "с высоты птичьего полета", которая позволяет абстрагироваться от мелких деталей и сосредоточиться на ключевых взаимодействующих объектах. BEV-карты широко используются в системах автономного управления транспортом, так как они обеспечивают удобный способ представления окружения, предоставляя важные сведения о дорогах, линиях разделения дорог и планах движения. Однако получение этих карт часто требует использования дорогостоящих и трудоемких сенсоров, таких как LIDAR или специальные камеры, а также сложных алгоритмов. Мотивация для данного исследования заключается в том, чтобы использовать доступные сенсоры, такие как стандартные зеркальные камеры, для эффективного построения BEV-карт, которые могли бы быть затем использованы для улучшения автономного управления транспортом. #### Метод В данном исследовании применяется Cross-View Transformer (CVT) — модель, которая предназначена для обучения сети для преобразования изображений с камеры в представление BEV-карт. Тренировочные данные собираются из реальных сцен с помощью симулятора для уличной езды, что позволяет сконцентрироваться на реалистичных ситуациях. Модель CVT основывается на кросс-аттенционной механике, которая позволяет моделировать зависимости между разными каналами BEV-карт (например, дорога, линии разделения дорог и планы движения). Мы проводим эксперименты с различными наборами сетевых архитектур и формами потерь, включая бинарный кросс-энтропийный уровень (focal loss) и L1-ошибку. Мы также проводим эксперименты, изучая влияние различных конфигураций камер и обучение на новых городах, чтобы протестировать возможность общей модели при условии трансфера. #### Результаты Мы проводили эксперименты, обучая модели CVT на данных, полученных только из одного города, а затем проверяли их на новых городах. Мы выявили, что тренировка модели с L1-потерями позволяет достичь наиболее стабильных и точных результатов в новых средах. Мы также обнаружили, что размер собираемых данных и конфигурация камер могут существенно повлиять на точность модели. Например, сеть, тренируемая на данных из одного города с 4-х камерой, показала наилучший результат при помощи L1-потерь. Таким образом, наши результаты показывают, что CVT может значительно улучшить качество BEV-карт, полученных из стандартных зеркальных камер, и продемонстрировать хорошую общинность на новых городах. ####

Abstract

Bird's-Eye View (BEV) maps provide a structured, top-down abstraction that is crucial for autonomous-driving perception. In this work, we employ Cross-View Transformers (CVT) for learning to map camera images to three BEV's channels - road, lane markings, and planned trajectory - using a realistic simulator for urban driving. Our study examines generalization to unseen towns, the effect of different camera layouts, and two loss formulations (focal and L1). Using training data from only a town, a four-camera CVT trained with the L1 loss delivers the most robust test performance, evaluated in a new town. Overall, our results underscore CVT's promise for mapping camera inputs to reasonably accurate BEV maps.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

An Initial Study of Bird's-Eye View Generation for Autonomous Vehicles using Cross-View Transformers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация