MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction
2508.04297v1
cs.CV
2025-08-09
Авторы:
Yaopeng Lou, Liao Shen, Tianqi Liu, Jiaqi Li, Zihao Huang, Huiqiang Sun, Zhiguo Cao
Резюме на русском
Резюме: Многобазенная общеприменимая технология реконструкции с применением гауссовых сплаттингов (MuGS) предлагает универсальное решение для организации проекции с высоким качеством, способное эффективно работать с широким диапазоном условий ввода, включая как узкие, так и широкие базели. Используя принципы Много birds Stereo (MVS) и монокулярной оценки глубины (MDE), MuGS улучшает представление о глубине и позволяет создавать точный прогноз пространственного геометрического пространства. Технология также внедряет новую механику для глубокого слияния глубинных карт и использует специальный спектр листов 3D-гауссовых представлений, что делает процессы обучения и применения более быстрыми и качественными. Испытания показали, что MuGS показывает ведущую производительность на различных наборах данных и сценах, от простых объектов до сложных внутренних инаутерных сцен, начиная с DTU и заканчивая RealEstate10K. Этот подход демонстрирует также неплохие результаты с нулевым вводом на LLFF и Mip-NeRF 360.
Abstract
We present Multi-Baseline Gaussian Splatting (MuRF), a generalized
feed-forward approach for novel view synthesis that effectively handles diverse
baseline settings, including sparse input views with both small and large
baselines. Specifically, we integrate features from Multi-View Stereo (MVS) and
Monocular Depth Estimation (MDE) to enhance feature representations for
generalizable reconstruction. Next, We propose a projection-and-sampling
mechanism for deep depth fusion, which constructs a fine probability volume to
guide the regression of the feature map. Furthermore, We introduce a
reference-view loss to improve geometry and optimization efficiency. We
leverage 3D Gaussian representations to accelerate training and inference time
while enhancing rendering quality. MuRF achieves state-of-the-art performance
across multiple baseline settings and diverse scenarios ranging from simple
objects (DTU) to complex indoor and outdoor scenes (RealEstate10K). We also
demonstrate promising zero-shot performance on the LLFF and Mip-NeRF 360
datasets.
Ссылки и действия
Дополнительные ресурсы: