Propagating Sparse Depth via Depth Foundation Model for Out-of-Distribution Depth Completion

2508.04984v1 cs.CV 2025-08-09
Авторы:

Shenglun Chen, Xinzhu Ma, Hong Zhang, Haojie Li, Zhihui Wang

Резюме на русском

Одной из основных задач компьютерного зрения является depth completion — восстановление точного пространственного разрешения данных по глубине из скудных набросков. Эта задача важна для обеспечения реалистичного глубинного восприятия в системах автоматизированного видения. Традиционные подходы, опирающиеся на тщательно подготовленные данные, чувствительны к изменению условий и работают плохо в out-of-distribution (OOD) сценариях. В данной работе предлагается новый подход, основанный на depth foundation model. Он позволяет извлекать структурные и семантические признаки из RGB-изображений, чтобы указательно преобразовывать скудные данные глубины в пространстве 3D и 2D с сохранением геометрической структуры и локального согласования. Для точного восстановления интересных объектов вводится learnable correction module. Модель протестирована на NYUv2 и KITTI, а также на 16 других датасетах. Она показала значительное улучшение в OOD-сценариях, превосходя аналогичные системы. Таким образом, предложенный подход представляет собой прорыв в области depth completion с OOD-детерминированностью и высокой точностью.

Abstract

Depth completion is a pivotal challenge in computer vision, aiming at reconstructing the dense depth map from a sparse one, typically with a paired RGB image. Existing learning based models rely on carefully prepared but limited data, leading to significant performance degradation in out-of-distribution (OOD) scenarios. Recent foundation models have demonstrated exceptional robustness in monocular depth estimation through large-scale training, and using such models to enhance the robustness of depth completion models is a promising solution. In this work, we propose a novel depth completion framework that leverages depth foundation models to attain remarkable robustness without large-scale training. Specifically, we leverage a depth foundation model to extract environmental cues, including structural and semantic context, from RGB images to guide the propagation of sparse depth information into missing regions. We further design a dual-space propagation approach, without any learnable parameters, to effectively propagates sparse depth in both 3D and 2D spaces to maintain geometric structure and local consistency. To refine the intricate structure, we introduce a learnable correction module to progressively adjust the depth prediction towards the real depth. We train our model on the NYUv2 and KITTI datasets as in-distribution datasets and extensively evaluate the framework on 16 other datasets. Our framework performs remarkably well in the OOD scenarios and outperforms existing state-of-the-art depth completion methods. Our models are released in https://github.com/shenglunch/PSD.

Ссылки и действия