GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

2508.17600v1 cs.RO, cs.AI, cs.CV, cs.LG 2025-08-27
Авторы:

Guanxing Lu, Baoxiong Jia, Puhao Li, Yixin Chen, Ziwei Wang, Yansong Tang, Siyuan Huang

Резюме на русском

#### Контекст Улучшение производительности роботов в задачах робототехнического манипулирования является ключевым подходом для решения широкого круга задач, от производственной автоматизации до помощи роботам в домашних условиях. Однако традиционные подходы, основанные на наблюдениях и действиях в реальном мире, требуют больших объемов данных и долгого обучения, что делает их неэффективными. Одним из продвинутых подходов является обучение роботов в мире моделей, где среда окружающего мира представляется в виде мировой модели. Однако существующие мировые модели часто используют мозговые хаки или генерируют недостаточно точные представления. Наша модель, Gaussian World Model (GWM), предлагает развитие этого подхода, используя принципы гауссовых процессов для точного предсказания будущих сцен. #### Метод GWM использует **diffusion transformer**, который основывается на принципах гауссовых процессов для предсказания будущих сцен. Модель 3D-вариационного автокодировщика позволяет визуально представить сцены, а трансформер обеспечивает точное представление. Была предложена концепция **Gaussian Splatting**, которая позволяет генерировать 3D-сцены с большой контрастностью и оптимальным использованием ресурсов. Таким образом, GWM может генерировать точные представления трехмерной среды, что необходимо для улучшения стратегии робота. #### Результаты Мы провели эксперименты в симуляции и реальном мире, используя различные сцены и действия. Результаты показали, что GWM может предсказывать точные сцены с учетом различных действий робота. Эти предсказания имеют низкую ошибку и повторяемость. Мы также провели сравнение с другими моделями, и результаты показали, что GWM превосходит их в предсказании точности и времени обработки. Наша модель предоставила значительное улучшение в параметрах качества и эффективности. #### Значимость GWM может быть применена в различных областях, включая имитационное обучение, моделирование визуальных сцен, прогнозирование дальнейшего поведения робота. Она предоставляет высокую точность и эффективность, что делает ее полезной в развитии моделей манипулирования. Кроме того, GWM может быть использована в качестве робототехнического симулятора, что повышает производительность. Это открывает новые возможности для решения задач в связи с роботом, что делает GWM ключевым инструментом в этой области. #### Выводы Мы представили новую модель, GWM, которая значительно улучшила точность предсказания будущих сцен в робототехническом манипулировании. Мы также продемонстрировали значительные преимущества GWM по сравнению с другими моделями.

Abstract

Training robot policies within a learned world model is trending due to the inefficiency of real-world interactions. The established image-based world models and policies have shown prior success, but lack robust geometric information that requires consistent spatial and physical understanding of the three-dimensional world, even pre-trained on internet-scale video sources. To this end, we propose a novel branch of world model named Gaussian World Model (GWM) for robotic manipulation, which reconstructs the future state by inferring the propagation of Gaussian primitives under the effect of robot actions. At its core is a latent Diffusion Transformer (DiT) combined with a 3D variational autoencoder, enabling fine-grained scene-level future state reconstruction with Gaussian Splatting. GWM can not only enhance the visual representation for imitation learning agent by self-supervised future prediction training, but can serve as a neural simulator that supports model-based reinforcement learning. Both simulated and real-world experiments depict that GWM can precisely predict future scenes conditioned on diverse robot actions, and can be further utilized to train policies that outperform the state-of-the-art by impressive margins, showcasing the initial data scaling potential of 3D world model.

Ссылки и действия