Complete Gaussian Splats from a Single Image with Denoising Diffusion Models

2508.21542v1 cs.CV, cs.AI, cs.RO 2025-09-02
Авторы:

Ziwei Liao, Mohamed Sayed, Steven L. Waslander, Sara Vicente, Daniyar Turmukhambetov, Michael Firman

Резюме на русском

#### Контекст Gaussian splatting, метод трехмерной реконструкции сцены на основе распределений Гаусса, широко применяется в интерактивных графике и виртуальной реальности. Однако этот метод требует полного охвата сцены с помощью сетки точек или теневых карт, что ограничивает его возможности в случаях неполного визуального доступа. Более того, оккультированные и невидные области сцены затруднены для реконструкции. Данная работа адресует эти проблемы, предлагая метод, который позволяет полностью реконструировать трёхмерную сцену с оккультированными областями по одной съёмке. #### Метод Метод основывается на диффузионных моделях для генерации трёхмерных структур. Разработанное решение, Variational AutoReconstructor, обучается в self-supervised режиме на 2D-изображениях, чтобы извлечь ло Lатентное пространство, представляющее трёхмерные сцены. Это пространство становится входным для диффузионной модели, которая поэтапно генерирует Дауссовы распределения для комплементарных (невидимых) областей сцены. Модель работает с гауссовыми распределениями, обеспечивая точность и реализм в реконструкции. Особенностью является возможность сгенерировать множество возможных вариантов реконструкции, обеспечивая гибкость в представлении невидимых областей. #### Резюлтаты Для оценки метода проводились эксперименты на различных тестовых сценах, включая реальные и виртуальные объекты. Модель была сравнена с современными подходами по качеству реконструкции и возможности генерировать различные варианты. Результаты показали, что разработанный подход позволяет генерировать более точные и разнообразные реконструкции, в том числе заполняя невидимые области. На реальных данных 360-градусных съёмок метод показал высокую точность в заполнении оккультированных областей и фидлистичность в целом. #### Значимость Метод может использоваться в областях, требующих полной трёхмерной реконструкции труднодоступных объектов, таких как виртуальная реальность, интерактивные приложения и автоматическая генерация графики. Он предлагает значительное сокращение необходимости в полным сканировании сцены, сохраняя точность и качество. Дополнительно, работа предоставляет новый подход к обучению моделей трёхмерного зрения на основе 2D-данных, что может быть применено в широком круге задач, связанных с глубоким обучением в трёхмерном пространстве. #### Выводы Разработанный подход демонстрирует высокую эффективность в реконструировании трёхмерных сцен с оккультированными областями по одной съёмке. Он позволяет генерировать разнообразные и точные рекон

Abstract

Gaussian splatting typically requires dense observations of the scene and can fail to reconstruct occluded and unobserved areas. We propose a latent diffusion model to reconstruct a complete 3D scene with Gaussian splats, including the occluded parts, from only a single image during inference. Completing the unobserved surfaces of a scene is challenging due to the ambiguity of the plausible surfaces. Conventional methods use a regression-based formulation to predict a single "mode" for occluded and out-of-frustum surfaces, leading to blurriness, implausibility, and failure to capture multiple possible explanations. Thus, they often address this problem partially, focusing either on objects isolated from the background, reconstructing only visible surfaces, or failing to extrapolate far from the input views. In contrast, we propose a generative formulation to learn a distribution of 3D representations of Gaussian splats conditioned on a single input image. To address the lack of ground-truth training data, we propose a Variational AutoReconstructor to learn a latent space only from 2D images in a self-supervised manner, over which a diffusion model is trained. Our method generates faithful reconstructions and diverse samples with the ability to complete the occluded surfaces for high-quality 360-degree renderings.

Ссылки и действия