Pure Vision Language Action (VLA) Models: A Comprehensive Survey
2509.19012v1
cs.RO, cs.AI
2025-09-25
Авторы:
Dapeng Zhang, Jin Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou
Резюме на русском
#### Контекст
На первый взгляд, роботизация простых задач вокруг нас, таких как уборка или подготовка еды, может показаться простой задачей. Однако сложность повышается значительно, когда эти задачи требуют адаптивности, активного взаимодействия с субъектами и обстоятельствами. Роботы должны понимать инструкции, анализировать среду и принимать решения в реальном времени. Одним из ключевых подходов здесь являются Vision Language Action (VLA) модели, которые превратили традиционные Vision Language Models (VLMs) из простого генератора последовательностей в активных агентов, способных действовать в сложных и динамических средах. Эта статья посвящена подробной обзорной исследовательской работе по VLA моделям, основываясь на обзоре более трехсот работ, и нацелена на получение четкой категоризации, а также систематического обзора существующих исследований в этой области.
#### Метод
VLA модели представляют собой комплексные системы, которые объединяют в себе детальный анализ визуальных и текстовых сигналов с активным принятием решений и действием. Методология начинается с понимания требований к задаче, затем предлагает архитектуру, которая объединяет нейросетевые модели для визуального и текстового понимания, а также агента для принятия решений и контроля поведения. Эталонные решения включают использование авторегрессионных моделей, диффузионных моделей, реинфорсмент-based алгоритмов, и вместо-моделей. Дополнительно, для подтверждения эффективности, разработчики VLA моделей используют наборы данных, такие как ALFRED и R2-D2, а также симуляционные платформы, такие как AI2-THOR и Gibson. Эти инструменты позволяют проводить эксперименты в управляемых условиях, упрощая оценку показателей производительности.
#### Результаты
В результате исследований было установлено, что VLA модели демонстрируют высокую эффективность в сценариях, требующих активного взаимодействия с окружением. Например, в задаче подготовки еды или уборки, модели способны распознавать объекты, интерпретировать инструкции, и выполнять действия в сильно различных условиях. Особенно выдающимися результатами показались модели, основанные на авторегрессионных моделях, которые продемонстрировали высокую точность в динамически изменяющихся средах. Эти модели также доказали свою эффективность в задачах с использованием реинфорсмента, что позволяет роботам оптимизировать свои действия в процессе.
#### Значимость
VLA модели открывают новые возможности в области универсальных роботизированных решений. Они могут использоваться в области управления домашними роботами, в сфере услуг, где робот должен
Abstract
The emergence of Vision Language Action (VLA) models marks a paradigm shift
from traditional policy-based control to generalized robotics, reframing Vision
Language Models (VLMs) from passive sequence generators into active agents for
manipulation and decision-making in complex, dynamic environments. This survey
delves into advanced VLA methods, aiming to provide a clear taxonomy and a
systematic, comprehensive review of existing research. It presents a
comprehensive analysis of VLA applications across different scenarios and
classifies VLA approaches into several paradigms: autoregression-based,
diffusion-based, reinforcement-based, hybrid, and specialized methods; while
examining their motivations, core strategies, and implementations in detail. In
addition, foundational datasets, benchmarks, and simulation platforms are
introduced. Building on the current VLA landscape, the review further proposes
perspectives on key challenges and future directions to advance research in VLA
models and generalizable robotics. By synthesizing insights from over three
hundred recent studies, this survey maps the contours of this rapidly evolving
field and highlights the opportunities and challenges that will shape the
development of scalable, general-purpose VLA methods.
Ссылки и действия
Дополнительные ресурсы: