MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction

2508.04297v1 cs.CV 2025-08-09
Авторы:

Yaopeng Lou, Liao Shen, Tianqi Liu, Jiaqi Li, Zihao Huang, Huiqiang Sun, Zhiguo Cao

Резюме на русском

Резюме: Многобазенная общеприменимая технология реконструкции с применением гауссовых сплаттингов (MuGS) предлагает универсальное решение для организации проекции с высоким качеством, способное эффективно работать с широким диапазоном условий ввода, включая как узкие, так и широкие базели. Используя принципы Много birds Stereo (MVS) и монокулярной оценки глубины (MDE), MuGS улучшает представление о глубине и позволяет создавать точный прогноз пространственного геометрического пространства. Технология также внедряет новую механику для глубокого слияния глубинных карт и использует специальный спектр листов 3D-гауссовых представлений, что делает процессы обучения и применения более быстрыми и качественными. Испытания показали, что MuGS показывает ведущую производительность на различных наборах данных и сценах, от простых объектов до сложных внутренних инаутерных сцен, начиная с DTU и заканчивая RealEstate10K. Этот подход демонстрирует также неплохие результаты с нулевым вводом на LLFF и Mip-NeRF 360.

Abstract

We present Multi-Baseline Gaussian Splatting (MuRF), a generalized feed-forward approach for novel view synthesis that effectively handles diverse baseline settings, including sparse input views with both small and large baselines. Specifically, we integrate features from Multi-View Stereo (MVS) and Monocular Depth Estimation (MDE) to enhance feature representations for generalizable reconstruction. Next, We propose a projection-and-sampling mechanism for deep depth fusion, which constructs a fine probability volume to guide the regression of the feature map. Furthermore, We introduce a reference-view loss to improve geometry and optimization efficiency. We leverage 3D Gaussian representations to accelerate training and inference time while enhancing rendering quality. MuRF achieves state-of-the-art performance across multiple baseline settings and diverse scenarios ranging from simple objects (DTU) to complex indoor and outdoor scenes (RealEstate10K). We also demonstrate promising zero-shot performance on the LLFF and Mip-NeRF 360 datasets.

Ссылки и действия