Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
2508.20072v1
cs.CV, cs.LG, cs.RO
2025-08-29
Авторы:
Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo
Резюме на русском
## Контекст
Визуально-языковые-действительные (Vision-Language-Action, VLA) модели являются ключевым инструментом для адаптации больших визуально-языковых фреймворков для того, чтобы преобразовывать изображения и инструкции в действия робота. Однако, существующие VLA-декодеры обычно работают авторегрессией в лево-правом порядке или прибавляют непрерывные диффузионные или потоковые заголовки за пределами бэкборна, что требует специальных усилий при обучении и итеративного семплирования. Это снижает эффективность и создает проблемы с объединением моделей. Целью нашей работы является разработка метода, который сочетает в себе гибкость диффузионных моделей с дискретной архитектурой, независимостью от порядка действий, и целостным обучением.
## Метод
Мы предлагаем **Discrete Diffusion VLA** — единоугольный политический декодер, который легко интегрируется в существующие VLM-бэкборны. Он использует диффузионный подход для дискретных элементов действий, обеспечивая прогрессивное уточнение решений. Базовая идея заключается в дискретной диффузии, которая моделирует действия как набор токенов, а также в совместном обучении с VLM-бэкборном с помощью кросс-энтропийной функции потерь. Мы добавляем второй маскированный цикл, который позволяет надёжно исправлять ошибки в процессе декодирования. Метод работает на одном проходе, что позволяет повысить производительность и уменьшить время работы.
## Результаты
Мы провести эксперименты на трёх комплексных задачах с действиями: LIBERO, SimplerEnv Fractal и SimplerEnv Bridge. Наша модель показала следующие результаты: 96.3% avg. success rate (SR) на LIBERO, 71.2% visual matching на SimplerEnv Fractal и 49.3% overall на SimplerEnv Bridge. Эти результаты показывают, что Discrete Diffusion VLA превосходит другие декодеры, особенно в области точности и стабильности действий. Мы также провести анализ времени работы и показали, что наша модель эффективнее, так как не требует итеративной диффузии и может работать параллельно.
## Значимость
Discrete Diffusion VLA может быть применена в различных областях, где требуется точное моделирование действий, таких как автоматизация, робототехника и AR/VR. Он обеспечивает высокую точность, эффективность и удобство в использовании благодаря единой архитектуре и независимости от порядка действий. Этот подход может привести к значительным улучшениям в области управления роботами, где требуется высокая точность и реактивность.
## Выводы
Мы представили Discrete Diffusion VLA — новую модель для декодирования в VLA-задачах, которая объединяет преимущества диффузионных моделей с дискретной архитектурой. Мы демонстрируем, что на
Abstract
Vision-Language-Action (VLA) models adapt large vision-language backbones to
map images and instructions to robot actions. However, prevailing VLA decoders
either generate actions autoregressively in a fixed left-to-right order or
attach continuous diffusion or flow matching heads outside the backbone,
demanding specialized training and iterative sampling that hinder a unified,
scalable architecture. We present Discrete Diffusion VLA, a single-transformer
policy that models discretized action chunks with discrete diffusion and is
trained with the same cross-entropy objective as the VLM backbone. The design
retains diffusion's progressive refinement paradigm while remaining natively
compatible with the discrete token interface of VLMs. Our method achieves an
adaptive decoding order that resolves easy action elements before harder ones
and uses secondary remasking to revisit uncertain predictions across refinement
rounds, which improves consistency and enables robust error correction. This
unified decoder preserves pretrained vision language priors, supports parallel
decoding, breaks the autoregressive bottleneck, and reduces the number of
function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO,
71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv
Bridge, improving over both autoregressive and continuous diffusion baselines.
These findings indicate that discrete-diffusion action decoder supports precise
action modeling and consistent training, laying groundwork for scaling VLA to
larger models and datasets.
Ссылки и действия
Дополнительные ресурсы: