Pure Vision Language Action (VLA) Models: A Comprehensive Survey

2509.19012v1 cs.RO, cs.AI 2025-09-25

Авторы:

Dapeng Zhang, Jin Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou

Резюме на русском

#### Контекст На первый взгляд, роботизация простых задач вокруг нас, таких как уборка или подготовка еды, может показаться простой задачей. Однако сложность повышается значительно, когда эти задачи требуют адаптивности, активного взаимодействия с субъектами и обстоятельствами. Роботы должны понимать инструкции, анализировать среду и принимать решения в реальном времени. Одним из ключевых подходов здесь являются Vision Language Action (VLA) модели, которые превратили традиционные Vision Language Models (VLMs) из простого генератора последовательностей в активных агентов, способных действовать в сложных и динамических средах. Эта статья посвящена подробной обзорной исследовательской работе по VLA моделям, основываясь на обзоре более трехсот работ, и нацелена на получение четкой категоризации, а также систематического обзора существующих исследований в этой области. #### Метод VLA модели представляют собой комплексные системы, которые объединяют в себе детальный анализ визуальных и текстовых сигналов с активным принятием решений и действием. Методология начинается с понимания требований к задаче, затем предлагает архитектуру, которая объединяет нейросетевые модели для визуального и текстового понимания, а также агента для принятия решений и контроля поведения. Эталонные решения включают использование авторегрессионных моделей, диффузионных моделей, реинфорсмент-based алгоритмов, и вместо-моделей. Дополнительно, для подтверждения эффективности, разработчики VLA моделей используют наборы данных, такие как ALFRED и R2-D2, а также симуляционные платформы, такие как AI2-THOR и Gibson. Эти инструменты позволяют проводить эксперименты в управляемых условиях, упрощая оценку показателей производительности. #### Результаты В результате исследований было установлено, что VLA модели демонстрируют высокую эффективность в сценариях, требующих активного взаимодействия с окружением. Например, в задаче подготовки еды или уборки, модели способны распознавать объекты, интерпретировать инструкции, и выполнять действия в сильно различных условиях. Особенно выдающимися результатами показались модели, основанные на авторегрессионных моделях, которые продемонстрировали высокую точность в динамически изменяющихся средах. Эти модели также доказали свою эффективность в задачах с использованием реинфорсмента, что позволяет роботам оптимизировать свои действия в процессе. #### Значимость VLA модели открывают новые возможности в области универсальных роботизированных решений. Они могут использоваться в области управления домашними роботами, в сфере услуг, где робот должен

Abstract

The emergence of Vision Language Action (VLA) models marks a paradigm shift from traditional policy-based control to generalized robotics, reframing Vision Language Models (VLMs) from passive sequence generators into active agents for manipulation and decision-making in complex, dynamic environments. This survey delves into advanced VLA methods, aiming to provide a clear taxonomy and a systematic, comprehensive review of existing research. It presents a comprehensive analysis of VLA applications across different scenarios and classifies VLA approaches into several paradigms: autoregression-based, diffusion-based, reinforcement-based, hybrid, and specialized methods; while examining their motivations, core strategies, and implementations in detail. In addition, foundational datasets, benchmarks, and simulation platforms are introduced. Building on the current VLA landscape, the review further proposes perspectives on key challenges and future directions to advance research in VLA models and generalizable robotics. By synthesizing insights from over three hundred recent studies, this survey maps the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose VLA methods.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pure Vision Language Action (VLA) Models: A Comprehensive Survey

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация