An Initial Study of Bird's-Eye View Generation for Autonomous Vehicles using Cross-View Transformers
2508.12520v1
cs.CV, cs.AI
2025-08-20
Авторы:
Felipe Carlos dos Santos, Eric Aislan Antonelo, Gustavo Claudio Karl Couto
Резюме на русском
#### Контекст
Автоматизированное управление транспортным средством требует большого объема информации о среде, в которой он работает. Одним из ключевых элементов для анализа этой информации является Bird's-Eye View (BEV) — визуализация среды с виду "с высоты птичьего полета", которая позволяет абстрагироваться от мелких деталей и сосредоточиться на ключевых взаимодействующих объектах. BEV-карты широко используются в системах автономного управления транспортом, так как они обеспечивают удобный способ представления окружения, предоставляя важные сведения о дорогах, линиях разделения дорог и планах движения. Однако получение этих карт часто требует использования дорогостоящих и трудоемких сенсоров, таких как LIDAR или специальные камеры, а также сложных алгоритмов. Мотивация для данного исследования заключается в том, чтобы использовать доступные сенсоры, такие как стандартные зеркальные камеры, для эффективного построения BEV-карт, которые могли бы быть затем использованы для улучшения автономного управления транспортом.
#### Метод
В данном исследовании применяется Cross-View Transformer (CVT) — модель, которая предназначена для обучения сети для преобразования изображений с камеры в представление BEV-карт. Тренировочные данные собираются из реальных сцен с помощью симулятора для уличной езды, что позволяет сконцентрироваться на реалистичных ситуациях. Модель CVT основывается на кросс-аттенционной механике, которая позволяет моделировать зависимости между разными каналами BEV-карт (например, дорога, линии разделения дорог и планы движения). Мы проводим эксперименты с различными наборами сетевых архитектур и формами потерь, включая бинарный кросс-энтропийный уровень (focal loss) и L1-ошибку. Мы также проводим эксперименты, изучая влияние различных конфигураций камер и обучение на новых городах, чтобы протестировать возможность общей модели при условии трансфера.
#### Результаты
Мы проводили эксперименты, обучая модели CVT на данных, полученных только из одного города, а затем проверяли их на новых городах. Мы выявили, что тренировка модели с L1-потерями позволяет достичь наиболее стабильных и точных результатов в новых средах. Мы также обнаружили, что размер собираемых данных и конфигурация камер могут существенно повлиять на точность модели. Например, сеть, тренируемая на данных из одного города с 4-х камерой, показала наилучший результат при помощи L1-потерь. Таким образом, наши результаты показывают, что CVT может значительно улучшить качество BEV-карт, полученных из стандартных зеркальных камер, и продемонстрировать хорошую общинность на новых городах.
####
Abstract
Bird's-Eye View (BEV) maps provide a structured, top-down abstraction that is
crucial for autonomous-driving perception. In this work, we employ Cross-View
Transformers (CVT) for learning to map camera images to three BEV's channels -
road, lane markings, and planned trajectory - using a realistic simulator for
urban driving. Our study examines generalization to unseen towns, the effect of
different camera layouts, and two loss formulations (focal and L1). Using
training data from only a town, a four-camera CVT trained with the L1 loss
delivers the most robust test performance, evaluated in a new town. Overall,
our results underscore CVT's promise for mapping camera inputs to reasonably
accurate BEV maps.
Ссылки и действия
Дополнительные ресурсы: