2nd Place Solution for CVPR2024 E2E Challenge: End-to-End Autonomous Driving Using Vision Language Model
2509.02659v1
cs.CV, cs.RO
2025-09-05
Авторы:
Zilong Guo, Yi Luo, Long Sha, Dongxu Wang, Panqu Wang, Chenyang Xu, Yi Yang
Резюме на русском
## Контекст
В последние годы автономное водительство стало одной из самых активно развивающихся областей исследований в области ИИ. Одним из основных подходов является модульная архитектура, в которой различные задачи, такие как распознавание объектов, определение маршрута и управление, решаются независимо друг от друга. Однако, несмотря на прогресс в модульных подходах, остается вопрос о возможности использования мощных глубоких сетевых моделей, особенно видно-языковых моделей (Vision Language Models, VLM), для повышения эффективности автономного водительства. Наша работа показывает, что интеграция VLM в энд-то-энд (End-to-End, E2E) архитектуру может обеспечить существенные улучшения в решении задач автономного водительства, а также демонстрирует потенциал таких подходов в решении многомодальных задач.
## Метод
Мы предлагаем интеграцию VLM в архитектуру автономного водительства, которая использует единственную камеру в качестве входного сигнала. Наше решение включает в себя несколько ключевых элементов:
1. **Архитектура VLM**: Мы используем текстовую модель, которая анализирует входные изображения с камеры и выводит описание содержимого.
2. **Энд-то-энд подход**: Мы совместили модель VLM с модулями, управляющими ходом автомобиля, включая алгоритмы планирования и корректировки маршрута.
3. **Обучение с подкреплением**: Мы применяли метод обучения с подкреплением, чтобы обучить модель решать задачи автономного водительства с минимальными потерями.
4. **Интеграция визуальных и текстовых сигналов**: Мы разработали специальные механизмы для объединения визуальных данных с текстовыми описаниями, чтобы повысить точность прогнозирования действий водителя.
## Результаты
Мы провели эксперименты на данных CVPR2024 E2E Challenge, которые показали высокую эффективность нашего подхода. Наша модель показала лучший результат среди решений, основанных только на камере, и демонстрирует высокую точность в таких задачах, как обнаружение объектов, прогнозирование движения и управление ходом. Мы также проверили нашу модель на других данных для проверки ее общей обобщаемости и показали, что она успешно работает в различных условиях.
## Значимость
Наш подход имеет широкие приложения в автономном водительстве, особенно в ситуациях, где доступ к модулям LIDAR или другим сенсорам ограничен. Одним из основных преимуществ является высокая точность и надежность в решении задач, таких как распознавание пешеходов, обнаружение других транспортных средств и управление ходом. Мы считаем, что наш подход может стать основой для развития будущих подходов в области энд-то-
Abstract
End-to-end autonomous driving has drawn tremendous attention recently. Many
works focus on using modular deep neural networks to construct the end-to-end
archi-tecture. However, whether using powerful large language models (LLM),
especially multi-modality Vision Language Models (VLM) could benefit the
end-to-end driving tasks remain a question. In our work, we demonstrate that
combining end-to-end architectural design and knowledgeable VLMs yield
impressive performance on the driving tasks. It is worth noting that our method
only uses a single camera and is the best camera-only solution across the
leaderboard, demonstrating the effectiveness of vision-based driving approach
and the potential for end-to-end driving tasks.
Ссылки и действия
Дополнительные ресурсы: