LLaDA-VLA: Vision Language Diffusion Action Models
2509.06932v1
cs.RO, cs.CV
2025-09-10
Авторы:
Yuqing Wen, Hebei Li, Kefan Gu, Yucheng Zhao, Tiancai Wang, Xiaoyan Sun
Резюме на русском
#### Контекст
В последние годы становится все более очевидным, что визуально-языковые модели (VLMs) успешно применяются в различных областях, включая робототехнику и работу с роботами. Однако существуют значительные проблемы в применении этих моделей в реальных задачах, таких как политика управления роботами. Для применения в робототехнике необходимы модели, которые могли бы учитывать взаимодействие между визуальным входом, языковыми командами и действиями. Например, для робота, выполняющего задачи в сложных средах, требуется модель, которая бы способна была прогнозировать действия на основе визуальных сигналов и текстовых команд. Эти проблемы побудили разработчиков развивать модели, которые могли бы учитывать все эти аспекты.
#### Метод
Мы предлагаем LLaDA-VLA, первую модель Vision-Language-Diffusion-Action (VLA), которая основывается на предобученных моделях с использованием метода масочевой диффузии (masked diffusion models). Модель LLaDA-VLA состоит из двух ключевых компонентов: (1) стратегии классификации специальных токенов, которая заменяет полноверсийный классификатор на классификатор только для специальных токенов; (2) стратегии декодирования, которая распределяет действия в последовательности с учетом зависимостей между ними. Это позволяет решить проблему применения d-VLMs в задачах робототехники, создавая более эффективную модель для обучения политики робота.
#### Результаты
Мы провели многочисленные эксперименты, используя различные данные, включая симуляцию и реальные роботы. Эксперименты показали, что LLaDA-VLA значительно улучшает результаты в сравнении с другими VLAs (Vision-Language-Action) для обучения политики. Мы проверили модель на различных задачах, таких как распознавание действий, понимание текстовых команд и совершение конкретных действий в реальной среде. Результаты показали, что LLaDA-VLA обеспечивает более точное и быстрое решение задач в сравнении с другими моделями.
#### Значимость
Лада-VLA может быть применена в различных областях, включая робототехнику, автоматизацию производства, видеоаналитику и даже в развитии интеллектуальных систем, которые могут взаимодействовать с человеком. Одним из основных преимуществ модели является ее универсальность и мощность в обработке визуальных и текстовых данных. Это может повысить эффективность и точность в работе с роботами, а также сделать их более удобными для применения в реальных условиях.
#### Выводы
Мы доказали, что LLaDA-VLA является эффективной моделью для обучения политики роботов, которая может решать задачи в жирых условиях. Мы также выделили направления для дальнейших исследований, такие как улучшение точности к
Abstract
The rapid progress of auto-regressive vision-language models (VLMs) has
inspired growing interest in vision-language-action models (VLA) for robotic
manipulation. Recently, masked diffusion models, a paradigm distinct from
autoregressive models, have begun to demonstrate competitive performance in
text generation and multimodal applications, leading to the development of a
series of diffusion-based VLMs (d-VLMs). However, leveraging such models for
robot policy learning remains largely unexplored. In this work, we present
LLaDA-VLA, the first Vision-Language-Diffusion-Action model built upon
pretrained d-VLMs for robotic manipulation. To effectively adapt d-VLMs to
robotic domain, we introduce two key designs: (1) a localized special-token
classification strategy that replaces full-vocabulary classification with
special action token classification, reducing adaptation difficulty; (2) a
hierarchical action-structured decoding strategy that decodes action sequences
hierarchically considering the dependencies within and across actions.
Extensive experiments demonstrate that LLaDA-VLA significantly outperforms
state-of-the-art VLAs on both simulation and real-world robots.
Ссылки и действия
Дополнительные ресурсы: