WoW: Towards a World omniscient World model Through Embodied Interaction

2509.22642v1 cs.RO, cs.CV, cs.MM 2025-09-30
Авторы:

Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang

Резюме на русском

## Контекст В настоящее время развитие ИИ сталкивается с ограничениями в развитии физического понимания у видеомоделей, таких как Sora. Эти модели основываются на пассивной наблюдении, что не позволяет им локализовать физическую причинно-следственную связь. Это привело к гипотезе, что физическое понимание в моделях лучше всего становится реалистичным при постоянных, причинно-следственных взаимодействиях с реальным миром. Данная работа подтверждает эту гипотезу, представив WoW — модель, полученную с помощью 2 млн роботов, обученную на 14 млрд параметров. Эта модель отражает понятие о физической жизни вокруг себя, позволяя визуализировать множественные возможные варианты действий, включая некоторые раннее невидимые. ## Метод Методология WoW основывается на обучении модели в тестовой среде, где робот может взаимодействовать с реальным миром, изучая причинно-следственные связи. Набор данных содержит 2 млн траекторий интеракции. Архитектура WoW — это 14-миллиардный параметровой генеративный модель, который может генерировать видеосцены, симулируя вид и причинно-следственные связи в жизни. Дополнительно используется SOPHIA, которая активно контролирует и перестраивает генерируемые сцены, используя языковые инструкции. ## Результаты Эксперименты показали, что WoW может генерировать видимые видеосцены, включая физически реалистичные действия, такие как движение предметов, столкновения, взаимодействия между предметами. Модель также генерирует несколько возможных вариантов действий, что демонстрирует развитие физической жизни. Еще один эксперимент показал, что модель может быть изменена с помощью SOPHIA под конкретные цели, чтобы сделать сцены более реалистичными. Также данные показали, что модель может быть адаптирована для роботов, чтобы реализовать команды в реальном мире. ## Значимость Результаты WoW могут быть применены в различных областях, включая роботов, оснащенных визуальными моделями, которые могут распознавать физические действия в реальном времени. Также модель может использоваться в сфере видеоредактирования, где можно применять визуальные модели для создания более живых и физически понятных сцен. Благодаря пониманию физических причин-следствий, модель может применяться в обучении новым роботам и в системах, требующих взаимодействия с реальным миром. ## Выводы Исследование WoW подтвердило, что реальное мировое взаимодействие является ключевым фактором для развития физического понимания у моделей. Модель WoW доказала свое превосходство

Abstract

Humans develop an understanding of intuitive physics through active interaction with the world. This approach is in stark contrast to current video models, such as Sora, which rely on passive observation and therefore struggle with grasping physical causality. This observation leads to our central hypothesis: authentic physical intuition of the world model must be grounded in extensive, causally rich interactions with the real world. To test this hypothesis, we present WoW, a 14-billion-parameter generative world model trained on 2 million robot interaction trajectories. Our findings reveal that the model's understanding of physics is a probabilistic distribution of plausible outcomes, leading to stochastic instabilities and physical hallucinations. Furthermore, we demonstrate that this emergent capability can be actively constrained toward physical realism by SOPHIA, where vision-language model agents evaluate the DiT-generated output and guide its refinement by iteratively evolving the language instructions. In addition, a co-trained Inverse Dynamics Model translates these refined plans into executable robotic actions, thus closing the imagination-to-action loop. We establish WoWBench, a new benchmark focused on physical consistency and causal reasoning in video, where WoW achieves state-of-the-art performance in both human and autonomous evaluation, demonstrating strong ability in physical causality, collision dynamics, and object permanence. Our work provides systematic evidence that large-scale, real-world interaction is a cornerstone for developing physical intuition in AI. Models, data, and benchmarks will be open-sourced.

Ссылки и действия