Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

2509.20109v1 cs.RO, cs.AI, cs.CL 2025-09-26

Авторы:

Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

Резюме на русском

## Контекст Современные автономные системы движения сталкиваются с рядом сложностей в обеспечении безопасности и эффективности поведения в реальном мире. Одним из ключевых аспектов является точная интерпретация информации среды, чтобы сформировать безопасные и оптимальные маршруты. Vision-Language-Action (VLA) модели, основанные на технологиях Vision-Language Models (VLMs), представляют собой отражение этой сложности, которая включает в себя глубокую интеграцию визуального, языкового и действительного пространства. Однако существующие подходы часто страдают от ограниченности имитационного обучения, недостаточной внедрения физических правил и высокой сложности в построении безопасных маршрутов. Наша работа ориентируется на решение этих проблем, особенно в условиях безопасности движения. ## Метод Мы предлагаем ReflectDrive, новую архитектуру, основанную на дискретной диффузии для рефлективного видения-языкового-действительного моделирования. Метод включает в себя несколько ключевых элементов: 1. **Дискретизация действительного пространства**: Мы превращаем двухмерное пространство вокруг автомобиля в кодебук действий, что позволяет использовать прогностические модели языка для планирования. 2. **Отражение (Reflection)**: Мы ввели безопасность-акцентированный механизм, который исправляет потенциальные неточности без необходимости расчетов производных. Этот механизм работает в цикле, применяя самокоррекцию. 3. **Целесообразное траекторирование**: Мы используем условное траекторирование, чтобы обеспечить многомодальность поведения. 4. **Локальный поиск**: Мы применяем локальный поиск для определения небезопасных токенов и используем интерполяцию для исправления. ## Результаты Мы провели эксперименты на NAVSIM, отражающем реальные условия автономного вождения. ReflectDrive показал существенные преимущества в сравнении с другими методами, особенно в сфере безопасности. Мы измерили следующие критерии: - **Безопасность**: ReflectDrive значительно снижает количество небезопасных ситуаций. - **Эффективность**: Метод работает быстрее, чем альтернативы, благодаря использованию дискретных моделей. - **Точность**: Результаты показали значительное улучшение в планировании маршрутов. ## Значимость Выводы данной работы могут быть применены в различных областях, включая автономную транспортную систему, системы безопасности дорог и управление роботами. Основные преимущества: - **Безопасность**: Метод предлагает новую модель для безопасного планирования маршрутов. - **Эффективность**: Использование дискретных моде

Abstract

End-to-End (E2E) solutions have emerged as a mainstream approach for autonomous driving systems, with Vision-Language-Action (VLA) models representing a new paradigm that leverages pre-trained multimodal knowledge from Vision-Language Models (VLMs) to interpret and interact with complex real-world environments. However, these methods remain constrained by the limitations of imitation learning, which struggles to inherently encode physical rules during training. Existing approaches often rely on complex rule-based post-refinement, employ reinforcement learning that remains largely limited to simulation, or utilize diffusion guidance that requires computationally expensive gradient calculations. To address these challenges, we introduce ReflectDrive, a novel learning-based framework that integrates a reflection mechanism for safe trajectory generation via discrete diffusion. We first discretize the two-dimensional driving space to construct an action codebook, enabling the use of pre-trained Diffusion Language Models for planning tasks through fine-tuning. Central to our approach is a safety-aware reflection mechanism that performs iterative self-correction without gradient computation. Our method begins with goal-conditioned trajectory generation to model multi-modal driving behaviors. Based on this, we apply local search methods to identify unsafe tokens and determine feasible solutions, which then serve as safe anchors for inpainting-based regeneration. Evaluated on the NAVSIM benchmark, ReflectDrive demonstrates significant advantages in safety-critical trajectory generation, offering a scalable and reliable solution for autonomous driving systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

HARMONIC: A Content-Centric Cognitive Robotic Architecture

Using Natural Language for Human-Robot Collaboration in the Real World

HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision...

Навигация