Learning Primitive Embodied World Models: Towards Scalable Robotic Learning
2508.20840v1
cs.RO, cs.AI, cs.MM
2025-08-30
Авторы:
Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu
Резюме на русском
## Контекст
В последние годы растет интерес к развитию объектно-ориентированных моделей мира в рамках робототехники и искусственного интеллекта. Однако эти модели сталкиваются с значительными ограничениями, связанными с объемом и сложностью данных, необходимых для обучения. Особенно чувствуется эта проблема в области роботов, взаимодействующих с физическим миром. Ограниченность доступных данных и сложность их сбора не позволяют полностью использовать потенциал моделей в области управления и развития ими универсальных стратегий. Точность и эффективность таких моделей ограничиваются не только их конструктивными особенностями, но и сложностью обработки данных, подразумевающей высокоинтегрированные алгоритмы. Развитие методов, расширяющих границы возможностей роботов в области понимания и взаимодействия с окружающим миром, является актуальным заданием.
## Метод
Для решения проблемы ограниченных объемов данных и сложности обучения разработана методология **Primitive Embodied World Models (PEWM)**. Эта модель ограничивает видео-генерацию в рамках краткого промежутка времени, что позволяет осуществлять точную связь между языковыми понятиями и визуальными представлениями. Метод также включает в себя **Vision-Language Model (VLM)** для планирования и **Start-Goal Heatmap Guidance Mechanism (SGG)** для управления. Такая структура позволяет повысить эффективность обучения, сократить требования к данным и улучшить возможности управления в реальном времени.
## Результаты
Проведены эксперименты, используя различные данные, включая видеоснимки и данные об интеракции с миром. Были проанализированы результаты, показавшие повышение точности и эффективности модели PEWM в сравнении с другими подходами. В частности, удалось достичь наилучших результатов в сфере структурированного обучения и управления, что подтвердило высокую эффективность применения PEWM в реальных сценариях.
## Значимость
Метод PEWM может применяться в различных областях, включая робототехнику, интеллектуальные системы, а также в интерактивные приложения, требующие понимания и взаимодействия с физическим окружением. Основное преимущество PEWM заключается в улучшении точности, эффективности и предсказуемости моделей в области объектно-ориентированного понимания. Это может привести к развитию универсальных моделей, которые могут использоваться в различных сферах, вплоть до роботов-ассистентов в каждодневной жизни.
## Выводы
Разработанная модель PEWM продемонстрировала высокую эффективность в решении задач, связанных с обучением в мире роботов. Она позволяет повысить точность, уменьшить требования к дан
Abstract
While video-generation-based embodied world models have gained increasing
attention, their reliance on large-scale embodied interaction data remains a
key bottleneck. The scarcity, difficulty of collection, and high dimensionality
of embodied data fundamentally limit the alignment granularity between language
and actions and exacerbate the challenge of long-horizon video
generation--hindering generative models from achieving a "GPT moment" in the
embodied domain. There is a naive observation: the diversity of embodied data
far exceeds the relatively small space of possible primitive motions. Based on
this insight, we propose a novel paradigm for world modeling--Primitive
Embodied World Models (PEWM). By restricting video generation to fixed short
horizons, our approach 1) enables fine-grained alignment between linguistic
concepts and visual representations of robotic actions, 2) reduces learning
complexity, 3) improves data efficiency in embodied data collection, and 4)
decreases inference latency. By equipping with a modular Vision-Language Model
(VLM) planner and a Start-Goal heatmap Guidance mechanism (SGG), PEWM further
enables flexible closed-loop control and supports compositional generalization
of primitive-level policies over extended, complex tasks. Our framework
leverages the spatiotemporal vision priors in video models and the semantic
awareness of VLMs to bridge the gap between fine-grained physical interaction
and high-level reasoning, paving the way toward scalable, interpretable, and
general-purpose embodied intelligence.
Ссылки и действия
Дополнительные ресурсы: