LLaDA-VLA: Vision Language Diffusion Action Models
2509.06932v2
cs.RO, cs.CV
2025-09-11
Авторы:
Yuqing Wen, Hebei Li, Kefan Gu, Yucheng Zhao, Tiancai Wang, Xiaoyan Sun
Резюме на русском
## Контекст
Область исследования, связанная с визуальными, языковыми и действительностными моделями (VLA), набирает обороты в связи с развитием робототехники и автоматизации. Необходимость эффективных систем, умеющих взаимодействовать с окружающим миром на основе визуальных и языковых сигналов, становится ключевой в развитии роботов, способных выполнять сложные задачи. Однако существуют серьезные проблемы, такие как сложность адаптации моделей к конкретной области применения, необходимость оптимальной интерпретации входных данных и выработка эффективных стратегий декодирования. Эти задачи требуют новых подходов, чтобы обеспечить создание моделей, которые были бы высокопроизводительными и применимыми в реальной жизни.
## Метод
Методология LLaDA-VLA основывается на развитии архитектуры, основанной на моделях размытия текста (d-VLMs), которые были адаптированы для области визуального и языкового взаимодействия с действительными действиями. Основными инновациями являются: (1) **локализованная стратегия классификации специальных токенов**, упрощающая адаптацию модели к задачам робототехники, и (2) **иерархическая стратегия декодирования действий**, рассматривающая структуру и зависимости между действиями. Эти подходы позволяют значительно упростить процесс обучения и увеличить точность решений в задачах робототипических задач.
## Результаты
В ходе экспериментов LLaDA-VLA протестировалась на широком кругу задач, включая симуляционные и реальные условия. Модель была сравнена с современными соревновательными решениями в области VLA. Результаты показали прирост эффективности, достигнутое благодаря локализованной классификации токенов и иерархической стратегии декодирования. Эти результаты привлекли внимание, поскольку LLaDA-VLA показала значительное превосходство в скорости и точности решения задач, что указывает на значительный потенциал модели в автоматизации и робототипических задачах.
## Значимость
Модель LLaDA-VLA может быть применена в различных сферах, включая робототехнику, здравоохранение и домашнюю автоматизацию. Она обеспечивает значительное улучшение в обработке сложных задач, уменьшая время обучения и улучшая качество решений. Достоинства LLaDA-VLA заключаются в увеличенной точности, простоте адаптации к новым задачам и высокой скорости вывода решений. Эти преимущества открывают новые возможности для создания более удобных и эффективных систем роботов, которые могут работать в реальных условиях.
## Выводы
Разработка LLaDA-VLA является первым примером модели Vision-Language-Diffusion-Action
Abstract
The rapid progress of auto-regressive vision-language models (VLMs) has
inspired growing interest in vision-language-action models (VLA) for robotic
manipulation. Recently, masked diffusion models, a paradigm distinct from
autoregressive models, have begun to demonstrate competitive performance in
text generation and multimodal applications, leading to the development of a
series of diffusion-based VLMs (d-VLMs). However, leveraging such models for
robot policy learning remains largely unexplored. In this work, we present
LLaDA-VLA, the first Vision-Language-Diffusion-Action model built upon
pretrained d-VLMs for robotic manipulation. To effectively adapt d-VLMs to
robotic domain, we introduce two key designs: (1) a localized special-token
classification strategy that replaces full-vocabulary classification with
special action token classification, reducing adaptation difficulty; (2) a
hierarchical action-structured decoding strategy that decodes action sequences
hierarchically considering the dependencies within and across actions.
Extensive experiments demonstrate that LLaDA-VLA significantly outperforms
state-of-the-art VLAs on both simulation and real-world robots.
Ссылки и действия
Дополнительные ресурсы: