Pure Vision Language Action (VLA) Models: A Comprehensive Survey

2509.19012v2 cs.RO, cs.AI 2025-09-26
Авторы:

Dapeng Zhang, Jing Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou

Резюме на русском

## Контекст Vision Language Action (VLA) модели представляют собой полностью новый подход в области робототехники и искусственного интеллекта. Они превращают Vision Language Models (VLMs) из простых систем последовательности генерации в активных агентов, предназначенных для манипуляции и принятия решений в сложных, динамических окружениях. Этот новый подход открывает новые возможности в области общего использования роботов, расширяя границы традиционных робототехнических систем в направлении более общего применения. Однако, несмотря на их перспективу, VLA модели обладают многочисленными проблемами и недостатками, включая проблемы с точностью, эффективностью, стоимостью и надежностью. Таким образом, комплексное исследование этих моделей и их приложения важно для развития робототехники. ## Метод Методология исследования VLA моделей основывается на подробном анализе существующих методов и парадигм, которые используются для их реализации. Эти методы могут быть разделены на несколько основных категорий: autoregression-based, diffusion-based, reinforcement-based и hybrid approaches. Основной подход в исследовании заключается в детальном анализе этих методов, включая их мотивацию, концептуальные стратегии и технические реализации. Разработка VLA моделей также требует основных данных, бенчмарков и симуляционных платформ, которые используются для моделирования и оценки эффективности новых моделей. Эта структурированная методология помогает в идентификации ключевых проблем и определении направлений для будущих исследований. ## Результаты Исследование включает в себя подробный анализ более чем 300 работ, которые были проведены в области VLA моделей. Эксперименты были проведены с использованием различных данных, включая как синтетические, так и реальные данные из различных сценариев. Результаты показали, что различные подходы к VLA моделям имеют свои преимущества и недостатки. Например, autoregression-based approaches сильны в обработке последовательностей, но могут иметь проблемы с реакцией на непредсказуемые ситуации. Точность, эффективность и стоимость решений варьируются в зависимости от специфики приложений и сценариев. Таким образом, результаты помогают определить основные направления для развития этих моделей. ## Значимость VLA модели имеют широкие области применения, включая робототехнику, системы телеприсутствия, интерактивные системы, игры и виртуальную реальность. Эти модели могут преобразовать текущие системы, делая их более умными, реагирующими и способными решать проблемы в реальном времени. Одним из основных преимуществ VLA моделей является их потен

Abstract

The emergence of Vision Language Action (VLA) models marks a paradigm shift from traditional policy-based control to generalized robotics, reframing Vision Language Models (VLMs) from passive sequence generators into active agents for manipulation and decision-making in complex, dynamic environments. This survey delves into advanced VLA methods, aiming to provide a clear taxonomy and a systematic, comprehensive review of existing research. It presents a comprehensive analysis of VLA applications across different scenarios and classifies VLA approaches into several paradigms: autoregression-based, diffusion-based, reinforcement-based, hybrid, and specialized methods; while examining their motivations, core strategies, and implementations in detail. In addition, foundational datasets, benchmarks, and simulation platforms are introduced. Building on the current VLA landscape, the review further proposes perspectives on key challenges and future directions to advance research in VLA models and generalizable robotics. By synthesizing insights from over three hundred recent studies, this survey maps the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose VLA methods.

Ссылки и действия