Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images

2508.03643v2 cs.CV 2025-08-09
Авторы:

Xiangyu Sun, Haoyi jiang, Liu Liu, Seungtae Nam, Gyeongjin Kang, Xinjie wang, Wei Sui, Zhizhong Su, Wenyu Liu, Xinggang Wang, Eunbyung Park

Резюме на русском

Реконструировать и семантически интерпретировать 3D-сцены из небольшого количества 2D-видов остается значительной проблемой в области компьютерного зрения. Большинство методов разделяют реконструкцию и семантическое понимание или требуют дорогостоящих оптимизаций для каждого сцены, что ограничивает их масштабируемость и универсальность. В данной работе предлагается Uni3R — разработка нового фреймворка, позволяющего одновременно реконструировать 3D-представление сцены и добавлять ей семантические признаки в рамках открытого лексикона. Используя Cross-View Transformer, Uni3R объединяет многозрительные входные данные и регрессирует 3D-гауссовые примитивы с полями семантических признаков. Этот единый подход обеспечивает высококачественную новообразуемую просмотренной точки зрения, открытоводическую семантическую сегментацию и прогнозирование глубины в рамках одного прогона. Авторы показали, что Uni3R обновляет состояние лидерских показателей на нескольких бенчмарках, включая RE10K и ScanNet. Это работа открывает путь к универсальной и общей модели реконструкции и понимания 3D-сцен. Детали и код доступны по адресу: https://github.com/HorizonRobotics/Uni3R.

Abstract

Reconstructing and semantically interpreting 3D scenes from sparse 2D views remains a fundamental challenge in computer vision. Conventional methods often decouple semantic understanding from reconstruction or necessitate costly per-scene optimization, thereby restricting their scalability and generalizability. In this paper, we introduce Uni3R, a novel feed-forward framework that jointly reconstructs a unified 3D scene representation enriched with open-vocabulary semantics, directly from unposed multi-view images. Our approach leverages a Cross-View Transformer to robustly integrate information across arbitrary multi-view inputs, which then regresses a set of 3D Gaussian primitives endowed with semantic feature fields. This unified representation facilitates high-fidelity novel view synthesis, open-vocabulary 3D semantic segmentation, and depth prediction, all within a single, feed-forward pass. Extensive experiments demonstrate that Uni3R establishes a new state-of-the-art across multiple benchmarks, including 25.07 PSNR on RE10K and 55.84 mIoU on ScanNet. Our work signifies a novel paradigm towards generalizable, unified 3D scene reconstruction and understanding. The code is available at https://github.com/HorizonRobotics/Uni3R.

Ссылки и действия