GaussianCross: Cross-modal Self-supervised 3D Representation Learning via Gaussian Splatting
2508.02172v1
cs.CV, cs.AI, cs.MM
2025-08-09
Авторы:
Lei Yao, Yi Wang, Yi Zhang, Moyun Liu, Lap-Pui Chau
Резюме на русском
Одной из основных проблем в самостоятельном обучении для 3D-сцен возникает недостаточная точность и надежность представлений точек, что приводит к ухудшению качества понимания сцены. В статье представлена методика GaussianCross, которая призвана устранить эти проблемы. Она использует 3D Gaussian Splatting для конвертации точечных облаков в однородный гауссовский формат, что позволяет сохранить все детали и гарантировать стабильность предварительного обучения. Более того, методика включает модуль адаптивной дистилляции, который одновременно доставляет функции геометрии, визуальной и семантической природы. Эксперименты показали, что GaussianCross демонстрирует выдающиеся результаты в тестах на нескольких бенчмарках, включая ScanNet и S3DIS. Она особенно эффективна при линейном пробировании и ограниченном объеме данных, превосходя состояние технологий. Этот подход демонстрирует выдающуюся генерализуемость и эффективность в задачах поиска объектов и их сегментации.
Abstract
The significance of informative and robust point representations has been
widely acknowledged for 3D scene understanding. Despite existing
self-supervised pre-training counterparts demonstrating promising performance,
the model collapse and structural information deficiency remain prevalent due
to insufficient point discrimination difficulty, yielding unreliable
expressions and suboptimal performance. In this paper, we present
GaussianCross, a novel cross-modal self-supervised 3D representation learning
architecture integrating feed-forward 3D Gaussian Splatting (3DGS) techniques
to address current challenges. GaussianCross seamlessly converts
scale-inconsistent 3D point clouds into a unified cuboid-normalized Gaussian
representation without missing details, enabling stable and generalizable
pre-training. Subsequently, a tri-attribute adaptive distillation splatting
module is incorporated to construct a 3D feature field, facilitating synergetic
feature capturing of appearance, geometry, and semantic cues to maintain
cross-modal consistency. To validate GaussianCross, we perform extensive
evaluations on various benchmarks, including ScanNet, ScanNet200, and S3DIS. In
particular, GaussianCross shows a prominent parameter and data efficiency,
achieving superior performance through linear probing (<0.1% parameters) and
limited data training (1% of scenes) compared to state-of-the-art methods.
Furthermore, GaussianCross demonstrates strong generalization capabilities,
improving the full fine-tuning accuracy by 9.3% mIoU and 6.1% AP$_{50}$ on
ScanNet200 semantic and instance segmentation tasks, respectively, supporting
the effectiveness of our approach. The code, weights, and visualizations are
publicly available at
\href{https://rayyoh.github.io/GaussianCross/}{https://rayyoh.github.io/GaussianCross/}.
Ссылки и действия
Дополнительные ресурсы: