UnPose: Uncertainty-Guided Diffusion Priors for Zero-Shot Pose Estimation

2508.15972v1 cs.RO, cs.CV 2025-08-26
Авторы:

Zhaodong Jiang, Ashish Sinha, Tongtong Cao, Yuan Ren, Bingbing Liu, Binbin Xu

Резюме на русском

## Контекст Оценка 6D-позы новых объектов является важной задачей в робототехнике, но требует доступа к CAD-моделям, которые могут быть дорогостоящими и непрактичными в получении. Существующие подходы пытаются обойти эту проблему с использованием мощных предварительно обученных диффузионных моделей для реконструкции объектов из одного или нескольких видов изображений. Однако, эти подходы часто требуют дополнительного обучения или приводят к халтурной геометрии. Было предложено UnPose — новый фреймворк для нулевого-сна-позиционирования 6D-позы и реконструкции 3D-модели, который использует 3D-признаки и оценки неопределенности, полученные от предварительно обученной диффузионной модели. ## Метод UnPose начинает с построения исходной 3D-модели с использованием 3D-гауссовского размытия (3DGS) на основе одного RGB-D-фрейма. Затем, этот 3DGS-репрезентация обновляется с использованием дополнительных видов изображений, при помощи 3D-гауссовского моделирования, которое использует оценки неопределенности, изданных диффузионной моделью. Этот процесс повторяется для каждого нового вида, чтобы построить конечный 3DGS-поле. Чтобы обеспечить глобальную консистентность, все виды изображений и их оценки неопределенности графически организованы в структуру позы и оптимизируются вместе. Этот подход позволяет достичь высокой точности позиционирования и качества реконструкции. ## Результаты Исследования показали, что UnPose значительно превосходит другие подходы в точности 6D-позиционирования и качестве реконструкции 3D-модели. Эксперименты проводились на стандартных датасетах, и результаты демонстрируют значительную улучшенность в сравнении с текущими методами. Также, UnPose продемонстрировал свою эффективность в реальных задачах робототехники, таких как рукоподъемные операции. ## Значимость UnPose может быть применен в различных областях, включая робототехнику, виртуальную реальность и глубокое обучение. Он предлагает преимущества, такие как необходимость не обучать модели заново и получение качественной 3D-реконструкции. Это может открыть новые возможности для 6D-позиционирования в реальном времени и для широкого диапазона задач, требующих точного понимания среды. ## Выводы UnPose представляет собой новый подход к 6D-позиционированию и 3D-реконструкции, который не требует дополнительных обучающих данных и обеспечивает высокую точность и качество. Он демонстрирует перспективы для решения задач робототехники, а также для других областей, где необходима точная реконструкция и

Abstract

Estimating the 6D pose of novel objects is a fundamental yet challenging problem in robotics, often relying on access to object CAD models. However, acquiring such models can be costly and impractical. Recent approaches aim to bypass this requirement by leveraging strong priors from foundation models to reconstruct objects from single or multi-view images, but typically require additional training or produce hallucinated geometry. To this end, we propose UnPose, a novel framework for zero-shot, model-free 6D object pose estimation and reconstruction that exploits 3D priors and uncertainty estimates from a pre-trained diffusion model. Specifically, starting from a single-view RGB-D frame, UnPose uses a multi-view diffusion model to estimate an initial 3D model using 3D Gaussian Splatting (3DGS) representation, along with pixel-wise epistemic uncertainty estimates. As additional observations become available, we incrementally refine the 3DGS model by fusing new views guided by the diffusion model's uncertainty, thereby continuously improving the pose estimation accuracy and 3D reconstruction quality. To ensure global consistency, the diffusion prior-generated views and subsequent observations are further integrated in a pose graph and jointly optimized into a coherent 3DGS field. Extensive experiments demonstrate that UnPose significantly outperforms existing approaches in both 6D pose estimation accuracy and 3D reconstruction quality. We further showcase its practical applicability in real-world robotic manipulation tasks.

Ссылки и действия