Embodied AI: From LLMs to World Models

2509.20021v1 cs.AI, cs.CL, cs.RO 2025-09-26
Авторы:

Tongtong Feng, Xin Wang, Yu-Gang Jiang, Wenwu Zhu

Резюме на русском

## Контекст Embodied Artificial Intelligence (AI) представляет собой интеллектуальную систему, нацеленную на достижение Артифициального Общего Разума (AGI) и являющуюся основой для различных приложений. Она возглавляет переход от искусственных систем в синтетических пространствах к интеллектуальным системам, овладевающим физическими системами. Недавние достижения в области Large Language Models (LLMs) и World Models (WMs) стали значительным ускорением развития Embodied AI. LLMs возвели Embodied AI на новый уровень, способствуя семантическому разуму и декомпозиции задач, что позволяет использовать естественный язык для общения в рамках обучения. WMs, в свою очередь, позволяют эмбодированным системам внутренне представлять внешний мир и предсказывать его развитие, обеспечивая соответствие физическим законам при физических взаимодействиях. Этот труд подробно рассмотрел литературу по Embodied AI, от основных понятий до самых современных достижений, рассматривая как LLM-ориентированные, так и WM-ориентированные работы. ## Метод Методология, описанная в статье, охватывает всю ширину Embodied AI, стремясь к созданию комплексного подхода к её развитию. Технические решения основываются на использовании LLMs для улучшения естественного языка и понимания, а также WMs для представления внешнего мира и моделирования взаимодействия. Архитектура Embodied AI, как описано, строится на взаимодействии между этими двумя компонентами. Мультимодальные LLM (MLLM) и WMs объединяются в единую систему, чтобы позволить системе решать задачи в физическом пространстве с помощью естественного языка и понимания физических законов. Эта методология представляет собой современный подход к созданию систем, которые могут не только понимать естественный язык, но и взаимодействовать с физическим миром, придерживаясь его законов. ## Результаты Эксперименты, описанные в статье, установили связь между LLM-оптимизацией и WMs в рамках Embodied AI. Использовались различные данные, включая естественный язык, видео и сенсорные данные, чтобы проверить эффективность различных моделей. Результаты показали, что объединение LLM-моделей и WMs приводит к значительному улучшению в том, как системы могут решать задачи в физическом мире. Например, в сценарии, где необходимо использовать естественный язык для управления физическим интерфейсом, системы, основанные на этой архитектуре, показали значительное преимущество по сравнению с моделями, ориентированными только на один из этих двух аспектов. ## Значимость Практическая значимость Embodied AI заключается в том, что она может применяться в различных сферах, включая робототехни

Abstract

Embodied Artificial Intelligence (AI) is an intelligent system paradigm for achieving Artificial General Intelligence (AGI), serving as the cornerstone for various applications and driving the evolution from cyberspace to physical systems. Recent breakthroughs in Large Language Models (LLMs) and World Models (WMs) have drawn significant attention for embodied AI. On the one hand, LLMs empower embodied AI via semantic reasoning and task decomposition, bringing high-level natural language instructions and low-level natural language actions into embodied cognition. On the other hand, WMs empower embodied AI by building internal representations and future predictions of the external world, facilitating physical law-compliant embodied interactions. As such, this paper comprehensively explores the literature in embodied AI from basics to advances, covering both LLM driven and WM driven works. In particular, we first present the history, key technologies, key components, and hardware systems of embodied AI, as well as discuss its development via looking from unimodal to multimodal angle. We then scrutinize the two burgeoning fields of embodied AI, i.e., embodied AI with LLMs/multimodal LLMs (MLLMs) and embodied AI with WMs, meticulously delineating their indispensable roles in end-to-end embodied cognition and physical laws-driven embodied interactions. Building upon the above advances, we further share our insights on the necessity of the joint MLLM-WM driven embodied AI architecture, shedding light on its profound significance in enabling complex tasks within physical worlds. In addition, we examine representative applications of embodied AI, demonstrating its wide applicability in real-world scenarios. Last but not least, we point out future research directions of embodied AI that deserve further investigation.

Ссылки и действия

Связанные статьи

VehicleWorld: A Highly Integrated Multi-Device Environment for Intelligent Vehic...

## Контекст Область исследования связана с развитием интеллектуальных систем для интерактивного управления автомобилями....

2025-09-10