AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving
2509.01944v1
cs.RO, cs.CV
2025-09-05
Авторы:
Zhenlong Yuan, Jing Tang, Jinguo Luo, Rui Chen, Chengxuan Qian, Lei Sun, Xiangxiang Chu, Yujun Cai, Dapeng Zhang, Shuo Li
Резюме на русском
## Контекст
В последние годы Vision-Language-Action (VLA) модели становятся важной частью автономных систем движения, объединяя мощные способности визуального и языкового распознавания с решающими функциями. Однако, несмотря на их развитие, остаются серьезные проблемы, связанные с интерпретируемостью и сплоченностью решений, а также с надежностью описаний действий. Эти вопросы требуют надёжного решения, так как от них зависит доверие со стороны пользователей и безопасность систем. Для решения этих проблем, мы предлагаем AutoDrive-R$^2$, новую VLA-модель, которая улучшает логическое мышление и способность к самостоятельной рефлексии. Это даёт надежду на повышение разбирательства в процессе принятия решений и более реалистичного планирования движения.
## Метод
Мы предлагаем AutoDrive-R$^2$, которая включает в себя два ключевых компонента. Во-первых, мы разработали специальный датасет nuScenesR$^2$-6K, который включает в себя 6000 наблюдаемых сцен, каждая из которых имеет четырёхшаговую логическую цепочку со самостоятельной рефлексией. Это позволяет создавать логические связи между входными данными и действиями. Во-вторых, мы применяем Group Relative Policy Optimization (GRPO), алгоритм усовершенствованного reinforcement learning, который оптимизирует планирование движения, используя физический фреймворк с рассмотрением пространственной выравнивания, динамики транспортных средств и гладкости движения. Это обеспечивает более реалистичные и отразительные решения.
## Результаты
Мы провести многочисленные эксперименты, используя данные из двух основных наборов данных: nuScenes и Waymo. Наши результаты показывают, что AutoDrive-R$^2$ превосходит другие существующие модели в терминах точности распознавания и качества планирования движения. Мы также проверяли способность модели к логическому рассуждению и саморефлексии. Эти выводы подтверждают эффективность нашего подхода в создании более уверенных и интерпретируемых автономных систем.
## Значимость
Предложенная модель может быть применена в различных областях, где необходимо высокоточное решение, включая автономные транспортные средства, робототехнику и интеллектуальные системы. Одним из основных преимуществ является улучшение уровня интерпретируемости решений и доверия к системам автоматизированного управления. В будущем мы намерены расширить сферу применения, включив в модель дополнительные факторы, такие как социальные сигналы и эмоциональные аспекты.
## Выводы
Мы представили новую модель AutoDrive-R$^2$, которая улучшает логические способности и саморефлексию VLA-моделей для автономных
Abstract
Vision-Language-Action (VLA) models in autonomous driving systems have
recently demonstrated transformative potential by integrating multimodal
perception with decision-making capabilities. However, the interpretability and
coherence of the decision process and the plausibility of action sequences
remain largely underexplored. To address these issues, we propose
AutoDrive-R$^2$, a novel VLA framework that enhances both reasoning and
self-reflection capabilities of autonomous driving systems through
chain-of-thought (CoT) processing and reinforcement learning (RL).
Specifically, we first propose an innovative CoT dataset named nuScenesR$^2$-6K
for supervised fine-tuning, which effectively builds cognitive bridges between
input information and output trajectories through a four-step logical chain
with self-reflection for validation. Moreover, to maximize both reasoning and
self-reflection during the RL stage, we further employ the Group Relative
Policy Optimization (GRPO) algorithm within a physics-grounded reward framework
that incorporates spatial alignment, vehicle dynamic, and temporal smoothness
criteria to ensure reliable and realistic trajectory planning. Extensive
evaluation results across both nuScenes and Waymo datasets demonstrates the
state-of-the-art performance and robust generalization capacity of our proposed
method.
Ссылки и действия
Дополнительные ресурсы: