Propagating Sparse Depth via Depth Foundation Model for Out-of-Distribution Depth Completion
2508.04984v1
cs.CV
2025-08-09
Авторы:
Shenglun Chen, Xinzhu Ma, Hong Zhang, Haojie Li, Zhihui Wang
Резюме на русском
Одной из основных задач компьютерного зрения является depth completion — восстановление точного пространственного разрешения данных по глубине из скудных набросков. Эта задача важна для обеспечения реалистичного глубинного восприятия в системах автоматизированного видения. Традиционные подходы, опирающиеся на тщательно подготовленные данные, чувствительны к изменению условий и работают плохо в out-of-distribution (OOD) сценариях. В данной работе предлагается новый подход, основанный на depth foundation model. Он позволяет извлекать структурные и семантические признаки из RGB-изображений, чтобы указательно преобразовывать скудные данные глубины в пространстве 3D и 2D с сохранением геометрической структуры и локального согласования. Для точного восстановления интересных объектов вводится learnable correction module. Модель протестирована на NYUv2 и KITTI, а также на 16 других датасетах. Она показала значительное улучшение в OOD-сценариях, превосходя аналогичные системы. Таким образом, предложенный подход представляет собой прорыв в области depth completion с OOD-детерминированностью и высокой точностью.
Abstract
Depth completion is a pivotal challenge in computer vision, aiming at
reconstructing the dense depth map from a sparse one, typically with a paired
RGB image. Existing learning based models rely on carefully prepared but
limited data, leading to significant performance degradation in
out-of-distribution (OOD) scenarios. Recent foundation models have demonstrated
exceptional robustness in monocular depth estimation through large-scale
training, and using such models to enhance the robustness of depth completion
models is a promising solution. In this work, we propose a novel depth
completion framework that leverages depth foundation models to attain
remarkable robustness without large-scale training. Specifically, we leverage a
depth foundation model to extract environmental cues, including structural and
semantic context, from RGB images to guide the propagation of sparse depth
information into missing regions. We further design a dual-space propagation
approach, without any learnable parameters, to effectively propagates sparse
depth in both 3D and 2D spaces to maintain geometric structure and local
consistency. To refine the intricate structure, we introduce a learnable
correction module to progressively adjust the depth prediction towards the real
depth. We train our model on the NYUv2 and KITTI datasets as in-distribution
datasets and extensively evaluate the framework on 16 other datasets. Our
framework performs remarkably well in the OOD scenarios and outperforms
existing state-of-the-art depth completion methods. Our models are released in
https://github.com/shenglunch/PSD.
Ссылки и действия
Дополнительные ресурсы: