Survey of Vision-Language-Action Models for Embodied Manipulation

2508.15201v1 cs.RO, cs.AI 2025-08-23
Авторы:

Haoran Li, Yuhui Chen, Wenbo Cui, Weiheng Liu, Kai Liu, Mingcai Zhou, Zhengtao Zhang, Dongbin Zhao

Резюме на русском

## Контекст Embodied intelligence systems, которые улучшают возможности агентов через непрерывные взаимодействия с окружающим миром, привлекли внимание как академических, так и промышленных команд. Vision-Language-Action (VLA) модели, вдохновленные прогрессом в области больших фундаментальных моделей, представляют собой универсальные фреймворки для робототехнического управления. Они значительно повышают возможности взаимодействия агентов с окружающим миром в системах embodied intelligence. Это расширение открыло новые сценарии применения для embodied AI robot. Настоящая статья посвящена подробному обзору VLA-моделей для embodied manipulation. Она отслеживает эволюцию архитектур VLA, проводит анализ работ по 5 ключевым направлениям: структура моделей, данные для обучения, методы пред- и пост-обучения, а также методы оценки, и выделяет основные проблемы в развитии VLA и их реализации в реальном мире. ## Метод Для построения VLA моделей используется многослойная архитектура, включающая модели глубокого обучения для обработки языка и визуальных сигналов. Эти модели объединяются в единую систему, обменивающуюся информацией в реальном времени. Методология включает в себя несколько этапов: 1. Обработка сигналов визуальных датчиков и текстовых данных. 2. Взаимодействие между моделями языка и визуального распознавания. 3. Генерация и выполнение действий на основе полученных сигналов. Технические решения включают использование больших фундаментальных моделей, предварительных предобучений, а также методики регуляризации и оптимизации. ## Результаты Изучены и проанализированы различные VLA модели с разными структурами и характеристиками. Через эксперименты были определены ключевые преимущества и недостатки различных архитектур. Также проведено сравнение моделей по таким показателям, как точность распознавания объектов, скорость реакции и общая эффективность. Затем были изучены результаты работы моделей на различных данных, включая синтетические и реальные базы, что позволило выделить особенности каждой модели в задаче embodied manipulation. ## Значимость Результаты могут быть применены в различных областях, таких как автоматизация производств, системы помощи для инвалидов, а также в сфере умных домов. VLA модели предлагают следующие преимущества: 1. Увеличение точности и быстродействия визуального распознавания. 2. Улучшение взаимодействия с окружающим миром для embodied agents. 3. Увеличение гибкости и универсальности моделей в различных сценариях применения. ## Выводы Основное достижение заключается в подробном обзоре развития VLA моделей и их применений в embodied manipulation. Будущие иссле

Abstract

Embodied intelligence systems, which enhance agent capabilities through continuous environment interactions, have garnered significant attention from both academia and industry. Vision-Language-Action models, inspired by advancements in large foundation models, serve as universal robotic control frameworks that substantially improve agent-environment interaction capabilities in embodied intelligence systems. This expansion has broadened application scenarios for embodied AI robots. This survey comprehensively reviews VLA models for embodied manipulation. Firstly, it chronicles the developmental trajectory of VLA architectures. Subsequently, we conduct a detailed analysis of current research across 5 critical dimensions: VLA model structures, training datasets, pre-training methods, post-training methods, and model evaluation. Finally, we synthesize key challenges in VLA development and real-world deployment, while outlining promising future research directions.

Ссылки и действия