Survey of Vision-Language-Action Models for Embodied Manipulation
2508.15201v1
cs.RO, cs.AI
2025-08-23
Авторы:
Haoran Li, Yuhui Chen, Wenbo Cui, Weiheng Liu, Kai Liu, Mingcai Zhou, Zhengtao Zhang, Dongbin Zhao
Резюме на русском
## Контекст
Embodied intelligence systems, которые улучшают возможности агентов через непрерывные взаимодействия с окружающим миром, привлекли внимание как академических, так и промышленных команд. Vision-Language-Action (VLA) модели, вдохновленные прогрессом в области больших фундаментальных моделей, представляют собой универсальные фреймворки для робототехнического управления. Они значительно повышают возможности взаимодействия агентов с окружающим миром в системах embodied intelligence. Это расширение открыло новые сценарии применения для embodied AI robot. Настоящая статья посвящена подробному обзору VLA-моделей для embodied manipulation. Она отслеживает эволюцию архитектур VLA, проводит анализ работ по 5 ключевым направлениям: структура моделей, данные для обучения, методы пред- и пост-обучения, а также методы оценки, и выделяет основные проблемы в развитии VLA и их реализации в реальном мире.
## Метод
Для построения VLA моделей используется многослойная архитектура, включающая модели глубокого обучения для обработки языка и визуальных сигналов. Эти модели объединяются в единую систему, обменивающуюся информацией в реальном времени. Методология включает в себя несколько этапов:
1. Обработка сигналов визуальных датчиков и текстовых данных.
2. Взаимодействие между моделями языка и визуального распознавания.
3. Генерация и выполнение действий на основе полученных сигналов.
Технические решения включают использование больших фундаментальных моделей, предварительных предобучений, а также методики регуляризации и оптимизации.
## Результаты
Изучены и проанализированы различные VLA модели с разными структурами и характеристиками. Через эксперименты были определены ключевые преимущества и недостатки различных архитектур. Также проведено сравнение моделей по таким показателям, как точность распознавания объектов, скорость реакции и общая эффективность. Затем были изучены результаты работы моделей на различных данных, включая синтетические и реальные базы, что позволило выделить особенности каждой модели в задаче embodied manipulation.
## Значимость
Результаты могут быть применены в различных областях, таких как автоматизация производств, системы помощи для инвалидов, а также в сфере умных домов. VLA модели предлагают следующие преимущества:
1. Увеличение точности и быстродействия визуального распознавания.
2. Улучшение взаимодействия с окружающим миром для embodied agents.
3. Увеличение гибкости и универсальности моделей в различных сценариях применения.
## Выводы
Основное достижение заключается в подробном обзоре развития VLA моделей и их применений в embodied manipulation. Будущие иссле
Abstract
Embodied intelligence systems, which enhance agent capabilities through
continuous environment interactions, have garnered significant attention from
both academia and industry. Vision-Language-Action models, inspired by
advancements in large foundation models, serve as universal robotic control
frameworks that substantially improve agent-environment interaction
capabilities in embodied intelligence systems. This expansion has broadened
application scenarios for embodied AI robots. This survey comprehensively
reviews VLA models for embodied manipulation. Firstly, it chronicles the
developmental trajectory of VLA architectures. Subsequently, we conduct a
detailed analysis of current research across 5 critical dimensions: VLA model
structures, training datasets, pre-training methods, post-training methods, and
model evaluation. Finally, we synthesize key challenges in VLA development and
real-world deployment, while outlining promising future research directions.
Ссылки и действия
Дополнительные ресурсы: