Matrix-3D: Omnidirectional Explorable 3D World Generation
2508.08086v1
cs.CV, cs.GR
2025-08-13
Авторы:
Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
Резюме на русском
## Контекст
Область исследования, связанная с описанием и генерацией трехмерных моделей миров, является ключевой задачей в сфере спатиальной интеллектуализации. Недавние работы используют видеомодели для достижения широкого круга и генеративности в 3D-генерации миров. Однако существующие подходы часто ограничены в объеме и детализации создаваемых сцен. Целью данной работы является развитие методологии, позволяющей генерировать развернутые и ориентированные на пользователя 3D-миры из одного изображения или текстового мотива, чтобы улучшить степень генеративности и степень детализации.
## Метод
Разработан фреймворк Matrix-3D, который использует панорамные представления для широкомасштабной генерации 3D-миров, объединяя кондиционированное видеогенерирование и панорамное 3D-реконструктирование. Модель работает в двух этапах: первый этап заключается в обучении траектории-руководящей панорамной видео-диффузионной модели, использующей рендеры сцены в качестве условий. Это позволяет достичь высокого качества и геометрической консистентности в генерируемых видеосценах. Второй этап предполагает две трактовки: (1) прямое отображение панорамного видео в 3D-сцены с помощью готовой модели разделения глубины и (2) оптимизационный подход для получения более точных деталей в 3D-моделях.
## Результаты
В работе проведены широкомасштабные эксперименты с использованием двух новых датасетов: Matrix-Pano (116K панорамных видеосцен) и Matrix-3D (10K комбинаций текста и изображений). Эксперименты показали, что фреймворк Matrix-3D превосходит существующие подходы в широкомасштабной генерации 3D-миров, достигая более высокого качества реконструкции и описания сцен. Особенно заметны выигрыши в геометрической консистентности и подробности сгенерированных моделей.
## Значимость
Метод Matrix-3D может быть применен в различных областях, включая виртуальную реальность, игровые процессы, архитектурное проектирование и визуализацию. Одним из главных преимуществ является возможность генерировать 3D-сцены с высокой детализацией и широким кругом видимости из простых входных данных, таких как изображения или текст. Этот подход может повысить эффективность и гибкость в приложениях, требующих 3D-моделирования.
## Выводы
Разработанная методология Matrix-3D достигла новых результатов в широкомасштабной 3D-генерации с высоким качеством и детализацией. Отмечено, что дальнейшие исследования будут направлены на улучшение точности моделей в тяжелых у
Abstract
Explorable 3D world generation from a single image or text prompt forms a
cornerstone of spatial intelligence. Recent works utilize video model to
achieve wide-scope and generalizable 3D world generation. However, existing
approaches often suffer from a limited scope in the generated scenes. In this
work, we propose Matrix-3D, a framework that utilize panoramic representation
for wide-coverage omnidirectional explorable 3D world generation that combines
conditional video generation and panoramic 3D reconstruction. We first train a
trajectory-guided panoramic video diffusion model that employs scene mesh
renders as condition, to enable high-quality and geometrically consistent scene
video generation. To lift the panorama scene video to 3D world, we propose two
separate methods: (1) a feed-forward large panorama reconstruction model for
rapid 3D scene reconstruction and (2) an optimization-based pipeline for
accurate and detailed 3D scene reconstruction. To facilitate effective
training, we also introduce the Matrix-Pano dataset, the first large-scale
synthetic collection comprising 116K high-quality static panoramic video
sequences with depth and trajectory annotations. Extensive experiments
demonstrate that our proposed framework achieves state-of-the-art performance
in panoramic video generation and 3D world generation. See more in
https://matrix-3d.github.io.
Ссылки и действия
Дополнительные ресурсы: