Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

2508.14892v1 cs.GR, cs.CV 2025-08-22

Авторы:

Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang

Резюме на русском

#### Контекст Построение 3D моделей человеческого тела из малого числа спарских видов представляется как интересный, но вызовительный вопрос в искусственном интеллекте. Такая модель является важной для различных приложений, таких как виртуальная реальность, игры, анимация и даже цифровые двойники. Однако существуют значительные сложности, в том числе нехватка информации в спарских входных данных, которые препятствуют точному построению трёхмерных моделей. Из-за этого задача затрагивает широкий круг пользователей и требует эффективных решений. #### Метод Мы предлагаем Snap-Snap — модель, которая строит 3D-модель тела человека из двух изображений: фронтального и заднего вида. Методология основывается на перенорелизированной реконструкции геометрии, адаптированной для работы с данными в спарском виде. Мы используем фондаментальные модели для предсказания точечных облаков, гарантирующих геометрическую консистентность даже при малом соотношении перекрытия входных изображений. Для восстановления цвета используется алгоритм, дополняющий отсутствующую информацию. Наконец, полученный трёхмерный гауссиан трансформируется в 3D-модель, которая обеспечивает лучшую качественную отрисовку. #### Результаты Наши эксперименты проводились на двух датасетах: THuman2.0 и датасете с кросс-доменными данными. Модель Snap-Snap способна восстанавливать целый человек за 190 мс на GPU NVIDIA RTX 4090, используя два изображения разрешения 1024x1024. Это демонстрирует состояние технологии в задаче реконструкции трёхмерных моделей тела. Метод показал свою эффективность даже при использовании данных, полученных с низкого качества, таких как фотографии с мобильных устройств. Это открывает новые возможности для создания цифровых двойников с минимальными требованиями к исходным данным. #### Значимость Наш подход открывает многообразные приложения в области цифровых двойников, виртуальных реалий и даже в медицинской анатомии. Он эффективен, быстрый и требует минимальных ресурсов. Такое решение может стать отличным инструментом для популяризации цифровой графики и дизайна. Будущие исследования будут сосредоточены на улучшении точности и обработке более сложных сцен, включая поведение и динамику. #### Выводы Мы представили Snap-Snap, модель, которая из двух изображений строит трёхмерную модель человеческого тела в миллисекунды. Наш подход подтвердил свою превосходность на опытных датасетах и даже на данных с низким качеством. Мы полагаем, что наша работа может стать основой для будущих исследовани

Abstract

Reconstructing 3D human bodies from sparse views has been an appealing topic, which is crucial to broader the related applications. In this paper, we propose a quite challenging but valuable task to reconstruct the human body from only two images, i.e., the front and back view, which can largely lower the barrier for users to create their own 3D digital humans. The main challenges lie in the difficulty of building 3D consistency and recovering missing information from the highly sparse input. We redesign a geometry reconstruction model based on foundation reconstruction models to predict consistent point clouds even input images have scarce overlaps with extensive human data training. Furthermore, an enhancement algorithm is applied to supplement the missing color information, and then the complete human point clouds with colors can be obtained, which are directly transformed into 3D Gaussians for better rendering quality. Experiments show that our method can reconstruct the entire human in 190 ms on a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024, demonstrating state-of-the-art performance on the THuman2.0 and cross-domain datasets. Additionally, our method can complete human reconstruction even with images captured by low-cost mobile devices, reducing the requirements for data collection. Demos and code are available at https://hustvl.github.io/Snap-Snap/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Radiance Meshes for Volumetric Reconstruction

Efficient Spatially-Variant Convolution via Differentiable Sparse Kernel Complex

TagSplat: Topology-Aware Gaussian Splatting for Dynamic Mesh Modeling and Tracki...

Geodiffussr: Generative Terrain Texturing with Elevation Fidelity

Inverse Rendering for High-Genus Surface Meshes from Multi-View Images

Навигация