AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

2509.01944v1 cs.RO, cs.CV 2025-09-05

Авторы:

Zhenlong Yuan, Jing Tang, Jinguo Luo, Rui Chen, Chengxuan Qian, Lei Sun, Xiangxiang Chu, Yujun Cai, Dapeng Zhang, Shuo Li

Резюме на русском

## Контекст В последние годы Vision-Language-Action (VLA) модели становятся важной частью автономных систем движения, объединяя мощные способности визуального и языкового распознавания с решающими функциями. Однако, несмотря на их развитие, остаются серьезные проблемы, связанные с интерпретируемостью и сплоченностью решений, а также с надежностью описаний действий. Эти вопросы требуют надёжного решения, так как от них зависит доверие со стороны пользователей и безопасность систем. Для решения этих проблем, мы предлагаем AutoDrive-R$^2$, новую VLA-модель, которая улучшает логическое мышление и способность к самостоятельной рефлексии. Это даёт надежду на повышение разбирательства в процессе принятия решений и более реалистичного планирования движения. ## Метод Мы предлагаем AutoDrive-R$^2$, которая включает в себя два ключевых компонента. Во-первых, мы разработали специальный датасет nuScenesR$^2$-6K, который включает в себя 6000 наблюдаемых сцен, каждая из которых имеет четырёхшаговую логическую цепочку со самостоятельной рефлексией. Это позволяет создавать логические связи между входными данными и действиями. Во-вторых, мы применяем Group Relative Policy Optimization (GRPO), алгоритм усовершенствованного reinforcement learning, который оптимизирует планирование движения, используя физический фреймворк с рассмотрением пространственной выравнивания, динамики транспортных средств и гладкости движения. Это обеспечивает более реалистичные и отразительные решения. ## Результаты Мы провести многочисленные эксперименты, используя данные из двух основных наборов данных: nuScenes и Waymo. Наши результаты показывают, что AutoDrive-R$^2$ превосходит другие существующие модели в терминах точности распознавания и качества планирования движения. Мы также проверяли способность модели к логическому рассуждению и саморефлексии. Эти выводы подтверждают эффективность нашего подхода в создании более уверенных и интерпретируемых автономных систем. ## Значимость Предложенная модель может быть применена в различных областях, где необходимо высокоточное решение, включая автономные транспортные средства, робототехнику и интеллектуальные системы. Одним из основных преимуществ является улучшение уровня интерпретируемости решений и доверия к системам автоматизированного управления. В будущем мы намерены расширить сферу применения, включив в модель дополнительные факторы, такие как социальные сигналы и эмоциональные аспекты. ## Выводы Мы представили новую модель AutoDrive-R$^2$, которая улучшает логические способности и саморефлексию VLA-моделей для автономных

Abstract

Vision-Language-Action (VLA) models in autonomous driving systems have recently demonstrated transformative potential by integrating multimodal perception with decision-making capabilities. However, the interpretability and coherence of the decision process and the plausibility of action sequences remain largely underexplored. To address these issues, we propose AutoDrive-R$^2$, a novel VLA framework that enhances both reasoning and self-reflection capabilities of autonomous driving systems through chain-of-thought (CoT) processing and reinforcement learning (RL). Specifically, we first propose an innovative CoT dataset named nuScenesR$^2$-6K for supervised fine-tuning, which effectively builds cognitive bridges between input information and output trajectories through a four-step logical chain with self-reflection for validation. Moreover, to maximize both reasoning and self-reflection during the RL stage, we further employ the Group Relative Policy Optimization (GRPO) algorithm within a physics-grounded reward framework that incorporates spatial alignment, vehicle dynamic, and temporal smoothness criteria to ensure reliable and realistic trajectory planning. Extensive evaluation results across both nuScenes and Waymo datasets demonstrates the state-of-the-art performance and robust generalization capacity of our proposed method.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация