UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation

2509.25079v1 cs.CV, cs.AI, cs.GR 2025-10-01

Авторы:

Guanjun Wu, Jiemin Fang, Chen Yang, Sikuang Li, Taoran Yi, Jia Lu, Zanwei Zhou, Jiazhong Cen, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Xinggang Wang, Qi Tian

Резюме на русском

#### Контекст На сMODERNЖОРСТКИЙ 3D-активы являются ключевым компонентом для многих отраслей, включая игры, виртуальную реальность, архитектурное проектирование и др. Несмотря на то, что недавние 3D-предобученные модели демонстрируют выдающиеся результаты в генерации реалистичного 3D-контента, большинство из них основываются на моделях размытия и придерживаются двухэтапной схемы: первым шагом выполняется генерация геометрии, а затем — синтез визуальных свойств. Такой декомпозированный подход часто приводит к проблемам, таким как несоответствие геометрии и текстуры, а также неэффективность процесса. В данной работе мы предлагаем UniLat3D — унифицированную модель, которая объединяет геометрию и визуальные свойства в единый вариант латентного пространства. Это позволяет упростить процесс до единого этапа, обеспечивая быструю и эффективную генерацию 3D-моделей. #### Метод UniLat3D основывается на геометрия-визуальном Unified VAE (UVAE), который сжимает высокоразрешенные спарсевые признаки в компактное латентное представление — UniLat. UniLat содержит информацию о геометрии и визуальных свойствах в качестве разреженной высокоразмерной формы и компактной низкоразмерной формы. Это латентное представление может быть эффективно декодировано в различные форматы 3D, такие как 3D-Гауссовы распределения и мешы. Для обучения UniLat3D мы используем единый модельный подход с целью напрямую сопоставлять шум Гаусса с UniLat. Это позволяет избежать декомпозиции процесса на два этапа и упростить архитектуру. Мы обучаем модель только на открытых 3D-данных, чтобы она могла генерировать качественные 3D-активы в считанные секунды из одного изображения. #### Результаты Мы провели подробные эксперименты для сравнения UniLat3D с другими 3D-представлениями и моделями генерации. Наши результаты показывают, что UniLat3D достигает высшего уровня качества геометрии и визуальных свойств по сравнению с двухэтапными моделями. Мы использовали данные в разных форматах, включая 3D-сканы, для обучения и вывода. UniLat3D в среднем генерирует модели за 2-3 секунды, что значительно опережает существующие методы по скорости и качеству. #### Значимость UniLat3D может быть применено в различных областях, таких как игровое производство, виртуальная реальность, архитектурное проектирование и др. Он обеспечивает более быструю генерацию 3D-активов с высоким качеством, уменьшая необходимость в дополнительных этапах обработки. Также UniLat3D может показать выигрыш в энергоэффек

Abstract

High-fidelity 3D asset generation is crucial for various industries. While recent 3D pretrained models show strong capability in producing realistic content, most are built upon diffusion models and follow a two-stage pipeline that first generates geometry and then synthesizes appearance. Such a decoupled design tends to produce geometry-texture misalignment and non-negligible cost. In this paper, we propose UniLat3D, a unified framework that encodes geometry and appearance in a single latent space, enabling direct single-stage generation. Our key contribution is a geometry-appearance Unified VAE, which compresses high-resolution sparse features into a compact latent representation -- UniLat. UniLat integrates structural and visual information into a dense low-resolution latent, which can be efficiently decoded into diverse 3D formats, e.g., 3D Gaussians and meshes. Based on this unified representation, we train a single flow-matching model to map Gaussian noise directly into UniLat, eliminating redundant stages. Trained solely on public datasets, UniLat3D produces high-quality 3D assets in seconds from a single image, achieving superior appearance fidelity and geometric quality. More demos \& code are available at https://unilat3d.github.io/

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ShadowDraw: From Any Object to Shadow-Drawing Compositional Art

In-Context Sync-LoRA for Portrait Video Editing

Pygmalion Effect in Vision: Image-to-Clay Translation for Reflective Geometry Re...

PFAvatar: Pose-Fusion 3D Personalized Avatar Reconstruction from Real-World Outf...

Lightweight Optimal-Transport Harmonization on Edge Devices

Навигация