Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds
2508.14892v1
cs.GR, cs.CV
2025-08-22
Авторы:
Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
Резюме на русском
#### Контекст
Построение 3D моделей человеческого тела из малого числа спарских видов представляется как интересный, но вызовительный вопрос в искусственном интеллекте. Такая модель является важной для различных приложений, таких как виртуальная реальность, игры, анимация и даже цифровые двойники. Однако существуют значительные сложности, в том числе нехватка информации в спарских входных данных, которые препятствуют точному построению трёхмерных моделей. Из-за этого задача затрагивает широкий круг пользователей и требует эффективных решений.
#### Метод
Мы предлагаем Snap-Snap — модель, которая строит 3D-модель тела человека из двух изображений: фронтального и заднего вида. Методология основывается на перенорелизированной реконструкции геометрии, адаптированной для работы с данными в спарском виде. Мы используем фондаментальные модели для предсказания точечных облаков, гарантирующих геометрическую консистентность даже при малом соотношении перекрытия входных изображений. Для восстановления цвета используется алгоритм, дополняющий отсутствующую информацию. Наконец, полученный трёхмерный гауссиан трансформируется в 3D-модель, которая обеспечивает лучшую качественную отрисовку.
#### Результаты
Наши эксперименты проводились на двух датасетах: THuman2.0 и датасете с кросс-доменными данными. Модель Snap-Snap способна восстанавливать целый человек за 190 мс на GPU NVIDIA RTX 4090, используя два изображения разрешения 1024x1024. Это демонстрирует состояние технологии в задаче реконструкции трёхмерных моделей тела. Метод показал свою эффективность даже при использовании данных, полученных с низкого качества, таких как фотографии с мобильных устройств. Это открывает новые возможности для создания цифровых двойников с минимальными требованиями к исходным данным.
#### Значимость
Наш подход открывает многообразные приложения в области цифровых двойников, виртуальных реалий и даже в медицинской анатомии. Он эффективен, быстрый и требует минимальных ресурсов. Такое решение может стать отличным инструментом для популяризации цифровой графики и дизайна. Будущие исследования будут сосредоточены на улучшении точности и обработке более сложных сцен, включая поведение и динамику.
#### Выводы
Мы представили Snap-Snap, модель, которая из двух изображений строит трёхмерную модель человеческого тела в миллисекунды. Наш подход подтвердил свою превосходность на опытных датасетах и даже на данных с низким качеством. Мы полагаем, что наша работа может стать основой для будущих исследовани
Abstract
Reconstructing 3D human bodies from sparse views has been an appealing topic,
which is crucial to broader the related applications. In this paper, we propose
a quite challenging but valuable task to reconstruct the human body from only
two images, i.e., the front and back view, which can largely lower the barrier
for users to create their own 3D digital humans. The main challenges lie in the
difficulty of building 3D consistency and recovering missing information from
the highly sparse input. We redesign a geometry reconstruction model based on
foundation reconstruction models to predict consistent point clouds even input
images have scarce overlaps with extensive human data training. Furthermore, an
enhancement algorithm is applied to supplement the missing color information,
and then the complete human point clouds with colors can be obtained, which are
directly transformed into 3D Gaussians for better rendering quality.
Experiments show that our method can reconstruct the entire human in 190 ms on
a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024,
demonstrating state-of-the-art performance on the THuman2.0 and cross-domain
datasets. Additionally, our method can complete human reconstruction even with
images captured by low-cost mobile devices, reducing the requirements for data
collection. Demos and code are available at
https://hustvl.github.io/Snap-Snap/.
Ссылки и действия
Дополнительные ресурсы: