Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images
2508.03643v2
cs.CV
2025-08-09
Авторы:
Xiangyu Sun, Haoyi jiang, Liu Liu, Seungtae Nam, Gyeongjin Kang, Xinjie wang, Wei Sui, Zhizhong Su, Wenyu Liu, Xinggang Wang, Eunbyung Park
Резюме на русском
Реконструировать и семантически интерпретировать 3D-сцены из небольшого количества 2D-видов остается значительной проблемой в области компьютерного зрения. Большинство методов разделяют реконструкцию и семантическое понимание или требуют дорогостоящих оптимизаций для каждого сцены, что ограничивает их масштабируемость и универсальность. В данной работе предлагается Uni3R — разработка нового фреймворка, позволяющего одновременно реконструировать 3D-представление сцены и добавлять ей семантические признаки в рамках открытого лексикона. Используя Cross-View Transformer, Uni3R объединяет многозрительные входные данные и регрессирует 3D-гауссовые примитивы с полями семантических признаков. Этот единый подход обеспечивает высококачественную новообразуемую просмотренной точки зрения, открытоводическую семантическую сегментацию и прогнозирование глубины в рамках одного прогона. Авторы показали, что Uni3R обновляет состояние лидерских показателей на нескольких бенчмарках, включая RE10K и ScanNet. Это работа открывает путь к универсальной и общей модели реконструкции и понимания 3D-сцен. Детали и код доступны по адресу: https://github.com/HorizonRobotics/Uni3R.
Abstract
Reconstructing and semantically interpreting 3D scenes from sparse 2D views
remains a fundamental challenge in computer vision. Conventional methods often
decouple semantic understanding from reconstruction or necessitate costly
per-scene optimization, thereby restricting their scalability and
generalizability. In this paper, we introduce Uni3R, a novel feed-forward
framework that jointly reconstructs a unified 3D scene representation enriched
with open-vocabulary semantics, directly from unposed multi-view images. Our
approach leverages a Cross-View Transformer to robustly integrate information
across arbitrary multi-view inputs, which then regresses a set of 3D Gaussian
primitives endowed with semantic feature fields. This unified representation
facilitates high-fidelity novel view synthesis, open-vocabulary 3D semantic
segmentation, and depth prediction, all within a single, feed-forward pass.
Extensive experiments demonstrate that Uni3R establishes a new state-of-the-art
across multiple benchmarks, including 25.07 PSNR on RE10K and 55.84 mIoU on
ScanNet. Our work signifies a novel paradigm towards generalizable, unified 3D
scene reconstruction and understanding. The code is available at
https://github.com/HorizonRobotics/Uni3R.
Ссылки и действия
Дополнительные ресурсы: