Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
2508.05635v1
cs.RO, cs.CV
2025-08-09
Авторы:
Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
Резюме на русском
**Резюме**
Роботизированная манипуляция является ключевым видом современной интеллектуальной активности, но существуют значительные проблемы с её обучением и реализацией в реальных условиях. Особенно трудно достичь общего использования, так как существующие подходы часто требуют больших объёмов данных или специализированных моделей для различных задач.
Мы предлагаем **Genie Envisioner (GE)** — универсальную платформу для обучения и оценки манипулятивных задач на основе видео-генерирующей модели. Основой GE лежит нейронный модельный комплекс, включающий в себя обучение политик, их оценку и моделирование в одной структуре размера видео. GE-Base, основная модель, является крупномасштабной моделью на основе распределения видео, логически условную инструкцию. GE-Act развивает потоки действий на основе полученных координат и предлагает легковесный подход к гибкой интерпретации политик. Для эффективного моделирования и оценки, GE-Sim служит для выполнения задач с помощью роллаутов в высоком разрешении.
Мы также предлагаем EWMBench, многомерный бенчмарк для оценки визуального качества, физической консистентности и инструкционной алгоритмической корреляции. Этот подход к обучению и оценке роботов с общими навыками упрощает и повышает качество реализации в больших масштабах. Мы открыли доступ коду, моделям и бенчмаркам, чтобы поощрить дальнейшую разработку в области универсальных систем манипуляции.
Abstract
We introduce Genie Envisioner (GE), a unified world foundation platform for
robotic manipulation that integrates policy learning, evaluation, and
simulation within a single video-generative framework. At its core, GE-Base is
a large-scale, instruction-conditioned video diffusion model that captures the
spatial, temporal, and semantic dynamics of real-world robotic interactions in
a structured latent space. Built upon this foundation, GE-Act maps latent
representations to executable action trajectories through a lightweight,
flow-matching decoder, enabling precise and generalizable policy inference
across diverse embodiments with minimal supervision. To support scalable
evaluation and training, GE-Sim serves as an action-conditioned neural
simulator, producing high-fidelity rollouts for closed-loop policy development.
The platform is further equipped with EWMBench, a standardized benchmark suite
measuring visual fidelity, physical consistency, and instruction-action
alignment. Together, these components establish Genie Envisioner as a scalable
and practical foundation for instruction-driven, general-purpose embodied
intelligence. All code, models, and benchmarks will be released publicly.
Ссылки и действия
Дополнительные ресурсы: