Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

2508.05635v1 cs.RO, cs.CV 2025-08-09
Авторы:

Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren

Резюме на русском

**Резюме** Роботизированная манипуляция является ключевым видом современной интеллектуальной активности, но существуют значительные проблемы с её обучением и реализацией в реальных условиях. Особенно трудно достичь общего использования, так как существующие подходы часто требуют больших объёмов данных или специализированных моделей для различных задач. Мы предлагаем **Genie Envisioner (GE)** — универсальную платформу для обучения и оценки манипулятивных задач на основе видео-генерирующей модели. Основой GE лежит нейронный модельный комплекс, включающий в себя обучение политик, их оценку и моделирование в одной структуре размера видео. GE-Base, основная модель, является крупномасштабной моделью на основе распределения видео, логически условную инструкцию. GE-Act развивает потоки действий на основе полученных координат и предлагает легковесный подход к гибкой интерпретации политик. Для эффективного моделирования и оценки, GE-Sim служит для выполнения задач с помощью роллаутов в высоком разрешении. Мы также предлагаем EWMBench, многомерный бенчмарк для оценки визуального качества, физической консистентности и инструкционной алгоритмической корреляции. Этот подход к обучению и оценке роботов с общими навыками упрощает и повышает качество реализации в больших масштабах. Мы открыли доступ коду, моделям и бенчмаркам, чтобы поощрить дальнейшую разработку в области универсальных систем манипуляции.

Abstract

We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajectories through a lightweight, flow-matching decoder, enabling precise and generalizable policy inference across diverse embodiments with minimal supervision. To support scalable evaluation and training, GE-Sim serves as an action-conditioned neural simulator, producing high-fidelity rollouts for closed-loop policy development. The platform is further equipped with EWMBench, a standardized benchmark suite measuring visual fidelity, physical consistency, and instruction-action alignment. Together, these components establish Genie Envisioner as a scalable and practical foundation for instruction-driven, general-purpose embodied intelligence. All code, models, and benchmarks will be released publicly.

Ссылки и действия