Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing

2508.03227v1 cs.CV 2025-08-09
Авторы:

Hongyu Shen, Junfeng Ni, Yixin Chen, Weishuo Li, Mingtao Pei, Siyuan Huang

Резюме на русском

Метод Trace3D предлагает решение проблемы лифтинга 2D-сегментации в 3D в контексте Gaussian Splatting. Несогласованность 2D-масок между представлениями и шумные границы сегментации, вызванные недовольством семантических сведений, ограничивают эффективность существующих методов. Trace3D предлагает **Gaussian Instance Tracing (GIT)**, который использует взаимосвязь Gaussians в 3D для идентификации и корректировки несогласованностей в 2D-сегментации. Для повышения точности и разрешения границ, Trace3D вводит адаптивный динамический управление плотностью, который позволяет разделить и убрать неоднозначные Gaussians. Эксперименты показывают, что Trace3D выдает чистые 3D-ресурсы и сохраняет согласованную 3D-сегментацию в онлайн и оффлайн условиях. Это включает выполнение таких задач, как герархическая сегментация, выделение объектов и редактирование сцены.

Abstract

We address the challenge of lifting 2D visual segmentation to 3D in Gaussian Splatting. Existing methods often suffer from inconsistent 2D masks across viewpoints and produce noisy segmentation boundaries as they neglect these semantic cues to refine the learned Gaussians. To overcome this, we introduce Gaussian Instance Tracing (GIT), which augments the standard Gaussian representation with an instance weight matrix across input views. Leveraging the inherent consistency of Gaussians in 3D, we use this matrix to identify and correct 2D segmentation inconsistencies. Furthermore, since each Gaussian ideally corresponds to a single object, we propose a GIT-guided adaptive density control mechanism to split and prune ambiguous Gaussians during training, resulting in sharper and more coherent 2D and 3D segmentation boundaries. Experimental results show that our method extracts clean 3D assets and consistently improves 3D segmentation in both online (e.g., self-prompting) and offline (e.g., contrastive lifting) settings, enabling applications such as hierarchical segmentation, object extraction, and scene editing.

Ссылки и действия