Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

2508.20072v1 cs.CV, cs.LG, cs.RO 2025-08-29

Авторы:

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo

Резюме на русском

## Контекст Визуально-языковые-действительные (Vision-Language-Action, VLA) модели являются ключевым инструментом для адаптации больших визуально-языковых фреймворков для того, чтобы преобразовывать изображения и инструкции в действия робота. Однако, существующие VLA-декодеры обычно работают авторегрессией в лево-правом порядке или прибавляют непрерывные диффузионные или потоковые заголовки за пределами бэкборна, что требует специальных усилий при обучении и итеративного семплирования. Это снижает эффективность и создает проблемы с объединением моделей. Целью нашей работы является разработка метода, который сочетает в себе гибкость диффузионных моделей с дискретной архитектурой, независимостью от порядка действий, и целостным обучением. ## Метод Мы предлагаем **Discrete Diffusion VLA** — единоугольный политический декодер, который легко интегрируется в существующие VLM-бэкборны. Он использует диффузионный подход для дискретных элементов действий, обеспечивая прогрессивное уточнение решений. Базовая идея заключается в дискретной диффузии, которая моделирует действия как набор токенов, а также в совместном обучении с VLM-бэкборном с помощью кросс-энтропийной функции потерь. Мы добавляем второй маскированный цикл, который позволяет надёжно исправлять ошибки в процессе декодирования. Метод работает на одном проходе, что позволяет повысить производительность и уменьшить время работы. ## Результаты Мы провести эксперименты на трёх комплексных задачах с действиями: LIBERO, SimplerEnv Fractal и SimplerEnv Bridge. Наша модель показала следующие результаты: 96.3% avg. success rate (SR) на LIBERO, 71.2% visual matching на SimplerEnv Fractal и 49.3% overall на SimplerEnv Bridge. Эти результаты показывают, что Discrete Diffusion VLA превосходит другие декодеры, особенно в области точности и стабильности действий. Мы также провести анализ времени работы и показали, что наша модель эффективнее, так как не требует итеративной диффузии и может работать параллельно. ## Значимость Discrete Diffusion VLA может быть применена в различных областях, где требуется точное моделирование действий, таких как автоматизация, робототехника и AR/VR. Он обеспечивает высокую точность, эффективность и удобство в использовании благодаря единой архитектуре и независимости от порядка действий. Этот подход может привести к значительным улучшениям в области управления роботами, где требуется высокая точность и реактивность. ## Выводы Мы представили Discrete Diffusion VLA — новую модель для декодирования в VLA-задачах, которая объединяет преимущества диффузионных моделей с дискретной архитектурой. Мы демонстрируем, что на

Abstract

Vision-Language-Action (VLA) models adapt large vision-language backbones to map images and instructions to robot actions. However, prevailing VLA decoders either generate actions autoregressively in a fixed left-to-right order or attach continuous diffusion or flow matching heads outside the backbone, demanding specialized training and iterative sampling that hinder a unified, scalable architecture. We present Discrete Diffusion VLA, a single-transformer policy that models discretized action chunks with discrete diffusion and is trained with the same cross-entropy objective as the VLM backbone. The design retains diffusion's progressive refinement paradigm while remaining natively compatible with the discrete token interface of VLMs. Our method achieves an adaptive decoding order that resolves easy action elements before harder ones and uses secondary remasking to revisit uncertain predictions across refinement rounds, which improves consistency and enables robust error correction. This unified decoder preserves pretrained vision language priors, supports parallel decoding, breaks the autoregressive bottleneck, and reduces the number of function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO, 71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv Bridge, improving over both autoregressive and continuous diffusion baselines. These findings indicate that discrete-diffusion action decoder supports precise action modeling and consistent training, laying groundwork for scaling VLA to larger models and datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MM-ACT: Learn from Multimodal Parallel Generation to Act

Flux4D: Flow-based Unsupervised 4D Reconstruction

Fast Post-Hoc Confidence Fusion for 3-Class Open-Set Aerial Object Detection

M2H: Multi-Task Learning with Efficient Window-Based Cross-Task Attention for Mo...

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent W...

Навигация