Matrix-3D: Omnidirectional Explorable 3D World Generation

2508.08086v1 cs.CV, cs.GR 2025-08-13
Авторы:

Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou

Резюме на русском

## Контекст Область исследования, связанная с описанием и генерацией трехмерных моделей миров, является ключевой задачей в сфере спатиальной интеллектуализации. Недавние работы используют видеомодели для достижения широкого круга и генеративности в 3D-генерации миров. Однако существующие подходы часто ограничены в объеме и детализации создаваемых сцен. Целью данной работы является развитие методологии, позволяющей генерировать развернутые и ориентированные на пользователя 3D-миры из одного изображения или текстового мотива, чтобы улучшить степень генеративности и степень детализации. ## Метод Разработан фреймворк Matrix-3D, который использует панорамные представления для широкомасштабной генерации 3D-миров, объединяя кондиционированное видеогенерирование и панорамное 3D-реконструктирование. Модель работает в двух этапах: первый этап заключается в обучении траектории-руководящей панорамной видео-диффузионной модели, использующей рендеры сцены в качестве условий. Это позволяет достичь высокого качества и геометрической консистентности в генерируемых видеосценах. Второй этап предполагает две трактовки: (1) прямое отображение панорамного видео в 3D-сцены с помощью готовой модели разделения глубины и (2) оптимизационный подход для получения более точных деталей в 3D-моделях. ## Результаты В работе проведены широкомасштабные эксперименты с использованием двух новых датасетов: Matrix-Pano (116K панорамных видеосцен) и Matrix-3D (10K комбинаций текста и изображений). Эксперименты показали, что фреймворк Matrix-3D превосходит существующие подходы в широкомасштабной генерации 3D-миров, достигая более высокого качества реконструкции и описания сцен. Особенно заметны выигрыши в геометрической консистентности и подробности сгенерированных моделей. ## Значимость Метод Matrix-3D может быть применен в различных областях, включая виртуальную реальность, игровые процессы, архитектурное проектирование и визуализацию. Одним из главных преимуществ является возможность генерировать 3D-сцены с высокой детализацией и широким кругом видимости из простых входных данных, таких как изображения или текст. Этот подход может повысить эффективность и гибкость в приложениях, требующих 3D-моделирования. ## Выводы Разработанная методология Matrix-3D достигла новых результатов в широкомасштабной 3D-генерации с высоким качеством и детализацией. Отмечено, что дальнейшие исследования будут направлены на улучшение точности моделей в тяжелых у

Abstract

Explorable 3D world generation from a single image or text prompt forms a cornerstone of spatial intelligence. Recent works utilize video model to achieve wide-scope and generalizable 3D world generation. However, existing approaches often suffer from a limited scope in the generated scenes. In this work, we propose Matrix-3D, a framework that utilize panoramic representation for wide-coverage omnidirectional explorable 3D world generation that combines conditional video generation and panoramic 3D reconstruction. We first train a trajectory-guided panoramic video diffusion model that employs scene mesh renders as condition, to enable high-quality and geometrically consistent scene video generation. To lift the panorama scene video to 3D world, we propose two separate methods: (1) a feed-forward large panorama reconstruction model for rapid 3D scene reconstruction and (2) an optimization-based pipeline for accurate and detailed 3D scene reconstruction. To facilitate effective training, we also introduce the Matrix-Pano dataset, the first large-scale synthetic collection comprising 116K high-quality static panoramic video sequences with depth and trajectory annotations. Extensive experiments demonstrate that our proposed framework achieves state-of-the-art performance in panoramic video generation and 3D world generation. See more in https://matrix-3d.github.io.

Ссылки и действия