Learning Primitive Embodied World Models: Towards Scalable Robotic Learning

2508.20840v1 cs.RO, cs.AI, cs.MM 2025-08-30
Авторы:

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

Резюме на русском

## Контекст В последние годы растет интерес к развитию объектно-ориентированных моделей мира в рамках робототехники и искусственного интеллекта. Однако эти модели сталкиваются с значительными ограничениями, связанными с объемом и сложностью данных, необходимых для обучения. Особенно чувствуется эта проблема в области роботов, взаимодействующих с физическим миром. Ограниченность доступных данных и сложность их сбора не позволяют полностью использовать потенциал моделей в области управления и развития ими универсальных стратегий. Точность и эффективность таких моделей ограничиваются не только их конструктивными особенностями, но и сложностью обработки данных, подразумевающей высокоинтегрированные алгоритмы. Развитие методов, расширяющих границы возможностей роботов в области понимания и взаимодействия с окружающим миром, является актуальным заданием. ## Метод Для решения проблемы ограниченных объемов данных и сложности обучения разработана методология **Primitive Embodied World Models (PEWM)**. Эта модель ограничивает видео-генерацию в рамках краткого промежутка времени, что позволяет осуществлять точную связь между языковыми понятиями и визуальными представлениями. Метод также включает в себя **Vision-Language Model (VLM)** для планирования и **Start-Goal Heatmap Guidance Mechanism (SGG)** для управления. Такая структура позволяет повысить эффективность обучения, сократить требования к данным и улучшить возможности управления в реальном времени. ## Результаты Проведены эксперименты, используя различные данные, включая видеоснимки и данные об интеракции с миром. Были проанализированы результаты, показавшие повышение точности и эффективности модели PEWM в сравнении с другими подходами. В частности, удалось достичь наилучших результатов в сфере структурированного обучения и управления, что подтвердило высокую эффективность применения PEWM в реальных сценариях. ## Значимость Метод PEWM может применяться в различных областях, включая робототехнику, интеллектуальные системы, а также в интерактивные приложения, требующие понимания и взаимодействия с физическим окружением. Основное преимущество PEWM заключается в улучшении точности, эффективности и предсказуемости моделей в области объектно-ориентированного понимания. Это может привести к развитию универсальных моделей, которые могут использоваться в различных сферах, вплоть до роботов-ассистентов в каждодневной жизни. ## Выводы Разработанная модель PEWM продемонстрировала высокую эффективность в решении задач, связанных с обучением в мире роботов. Она позволяет повысить точность, уменьшить требования к дан

Abstract

While video-generation-based embodied world models have gained increasing attention, their reliance on large-scale embodied interaction data remains a key bottleneck. The scarcity, difficulty of collection, and high dimensionality of embodied data fundamentally limit the alignment granularity between language and actions and exacerbate the challenge of long-horizon video generation--hindering generative models from achieving a "GPT moment" in the embodied domain. There is a naive observation: the diversity of embodied data far exceeds the relatively small space of possible primitive motions. Based on this insight, we propose a novel paradigm for world modeling--Primitive Embodied World Models (PEWM). By restricting video generation to fixed short horizons, our approach 1) enables fine-grained alignment between linguistic concepts and visual representations of robotic actions, 2) reduces learning complexity, 3) improves data efficiency in embodied data collection, and 4) decreases inference latency. By equipping with a modular Vision-Language Model (VLM) planner and a Start-Goal heatmap Guidance mechanism (SGG), PEWM further enables flexible closed-loop control and supports compositional generalization of primitive-level policies over extended, complex tasks. Our framework leverages the spatiotemporal vision priors in video models and the semantic awareness of VLMs to bridge the gap between fine-grained physical interaction and high-level reasoning, paving the way toward scalable, interpretable, and general-purpose embodied intelligence.

Ссылки и действия