2nd Place Solution for CVPR2024 E2E Challenge: End-to-End Autonomous Driving Using Vision Language Model

2509.02659v1 cs.CV, cs.RO 2025-09-05

Авторы:

Zilong Guo, Yi Luo, Long Sha, Dongxu Wang, Panqu Wang, Chenyang Xu, Yi Yang

Резюме на русском

## Контекст В последние годы автономное водительство стало одной из самых активно развивающихся областей исследований в области ИИ. Одним из основных подходов является модульная архитектура, в которой различные задачи, такие как распознавание объектов, определение маршрута и управление, решаются независимо друг от друга. Однако, несмотря на прогресс в модульных подходах, остается вопрос о возможности использования мощных глубоких сетевых моделей, особенно видно-языковых моделей (Vision Language Models, VLM), для повышения эффективности автономного водительства. Наша работа показывает, что интеграция VLM в энд-то-энд (End-to-End, E2E) архитектуру может обеспечить существенные улучшения в решении задач автономного водительства, а также демонстрирует потенциал таких подходов в решении многомодальных задач. ## Метод Мы предлагаем интеграцию VLM в архитектуру автономного водительства, которая использует единственную камеру в качестве входного сигнала. Наше решение включает в себя несколько ключевых элементов: 1. **Архитектура VLM**: Мы используем текстовую модель, которая анализирует входные изображения с камеры и выводит описание содержимого. 2. **Энд-то-энд подход**: Мы совместили модель VLM с модулями, управляющими ходом автомобиля, включая алгоритмы планирования и корректировки маршрута. 3. **Обучение с подкреплением**: Мы применяли метод обучения с подкреплением, чтобы обучить модель решать задачи автономного водительства с минимальными потерями. 4. **Интеграция визуальных и текстовых сигналов**: Мы разработали специальные механизмы для объединения визуальных данных с текстовыми описаниями, чтобы повысить точность прогнозирования действий водителя. ## Результаты Мы провели эксперименты на данных CVPR2024 E2E Challenge, которые показали высокую эффективность нашего подхода. Наша модель показала лучший результат среди решений, основанных только на камере, и демонстрирует высокую точность в таких задачах, как обнаружение объектов, прогнозирование движения и управление ходом. Мы также проверили нашу модель на других данных для проверки ее общей обобщаемости и показали, что она успешно работает в различных условиях. ## Значимость Наш подход имеет широкие приложения в автономном водительстве, особенно в ситуациях, где доступ к модулям LIDAR или другим сенсорам ограничен. Одним из основных преимуществ является высокая точность и надежность в решении задач, таких как распознавание пешеходов, обнаружение других транспортных средств и управление ходом. Мы считаем, что наш подход может стать основой для развития будущих подходов в области энд-то-

Abstract

End-to-end autonomous driving has drawn tremendous attention recently. Many works focus on using modular deep neural networks to construct the end-to-end archi-tecture. However, whether using powerful large language models (LLM), especially multi-modality Vision Language Models (VLM) could benefit the end-to-end driving tasks remain a question. In our work, we demonstrate that combining end-to-end architectural design and knowledgeable VLMs yield impressive performance on the driving tasks. It is worth noting that our method only uses a single camera and is the best camera-only solution across the leaderboard, demonstrating the effectiveness of vision-based driving approach and the potential for end-to-end driving tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

2nd Place Solution for CVPR2024 E2E Challenge: End-to-End Autonomous Driving Using Vision Language Model

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация