Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline
2508.04597v1
cs.CV
2025-08-09
Авторы:
Linqing Zhao, Xiuwei Xu, Yirui Wang, Hao Wang, Wenzhao Zheng, Yansong Tang, Haibin Yan, Jiwen Lu
Резюме на русском
Извлечение точных 3D-геометрий из потока RGB-видео без использования позиционных сигналов представляет вызов для систем 3D-реконструкции. Настоящая работа адресует эту проблему, предлагая интеграцию глубинного оценивания в систему RGB-D SLAM. Однако у этого подхода возникают проблемы с точностью геометрических деталей в предсказанных глубинах. Работа исследователей открывает новый подход, используя гауссовые карты для решения этой проблемы. Они предлагают онлайн-метод 3D-реконструкции, основанный на гауссовой маппинге, в сочетании с моделью прямого предсказания камерного положения на основе потока оптической смещения. Это позволяет заменить медленное оптимизационное тестирование скоростным выводом сети. Кроме того, введена техника локального графа для повышения устойчивости предсказания положения. Испытания на датасетах Replica и TUM-RGBD, а также реальные испытания, показали, что предложенный подход эквивалентен состоянию технологий, такому как SplaTAM, признаком более чем 90% уменьшения времени отслеживания.
Abstract
Incrementally recovering real-sized 3D geometry from a pose-free RGB stream
is a challenging task in 3D reconstruction, requiring minimal assumptions on
input data. Existing methods can be broadly categorized into end-to-end and
visual SLAM-based approaches, both of which either struggle with long sequences
or depend on slow test-time optimization and depth sensors. To address this, we
first integrate a depth estimator into an RGB-D SLAM system, but this approach
is hindered by inaccurate geometric details in predicted depth. Through further
investigation, we find that 3D Gaussian mapping can effectively solve this
problem. Building on this, we propose an online 3D reconstruction method using
3D Gaussian-based SLAM, combined with a feed-forward recurrent prediction
module to directly infer camera pose from optical flow. This approach replaces
slow test-time optimization with fast network inference, significantly
improving tracking speed. Additionally, we introduce a local graph rendering
technique to enhance robustness in feed-forward pose prediction. Experimental
results on the Replica and TUM-RGBD datasets, along with a real-world
deployment demonstration, show that our method achieves performance on par with
the state-of-the-art SplaTAM, while reducing tracking time by more than 90\%.
Ссылки и действия
Дополнительные ресурсы: