UnPose: Uncertainty-Guided Diffusion Priors for Zero-Shot Pose Estimation
2508.15972v1
cs.RO, cs.CV
2025-08-26
Авторы:
Zhaodong Jiang, Ashish Sinha, Tongtong Cao, Yuan Ren, Bingbing Liu, Binbin Xu
Резюме на русском
## Контекст
Оценка 6D-позы новых объектов является важной задачей в робототехнике, но требует доступа к CAD-моделям, которые могут быть дорогостоящими и непрактичными в получении. Существующие подходы пытаются обойти эту проблему с использованием мощных предварительно обученных диффузионных моделей для реконструкции объектов из одного или нескольких видов изображений. Однако, эти подходы часто требуют дополнительного обучения или приводят к халтурной геометрии. Было предложено UnPose — новый фреймворк для нулевого-сна-позиционирования 6D-позы и реконструкции 3D-модели, который использует 3D-признаки и оценки неопределенности, полученные от предварительно обученной диффузионной модели.
## Метод
UnPose начинает с построения исходной 3D-модели с использованием 3D-гауссовского размытия (3DGS) на основе одного RGB-D-фрейма. Затем, этот 3DGS-репрезентация обновляется с использованием дополнительных видов изображений, при помощи 3D-гауссовского моделирования, которое использует оценки неопределенности, изданных диффузионной моделью. Этот процесс повторяется для каждого нового вида, чтобы построить конечный 3DGS-поле. Чтобы обеспечить глобальную консистентность, все виды изображений и их оценки неопределенности графически организованы в структуру позы и оптимизируются вместе. Этот подход позволяет достичь высокой точности позиционирования и качества реконструкции.
## Результаты
Исследования показали, что UnPose значительно превосходит другие подходы в точности 6D-позиционирования и качестве реконструкции 3D-модели. Эксперименты проводились на стандартных датасетах, и результаты демонстрируют значительную улучшенность в сравнении с текущими методами. Также, UnPose продемонстрировал свою эффективность в реальных задачах робототехники, таких как рукоподъемные операции.
## Значимость
UnPose может быть применен в различных областях, включая робототехнику, виртуальную реальность и глубокое обучение. Он предлагает преимущества, такие как необходимость не обучать модели заново и получение качественной 3D-реконструкции. Это может открыть новые возможности для 6D-позиционирования в реальном времени и для широкого диапазона задач, требующих точного понимания среды.
## Выводы
UnPose представляет собой новый подход к 6D-позиционированию и 3D-реконструкции, который не требует дополнительных обучающих данных и обеспечивает высокую точность и качество. Он демонстрирует перспективы для решения задач робототехники, а также для других областей, где необходима точная реконструкция и
Abstract
Estimating the 6D pose of novel objects is a fundamental yet challenging
problem in robotics, often relying on access to object CAD models. However,
acquiring such models can be costly and impractical. Recent approaches aim to
bypass this requirement by leveraging strong priors from foundation models to
reconstruct objects from single or multi-view images, but typically require
additional training or produce hallucinated geometry. To this end, we propose
UnPose, a novel framework for zero-shot, model-free 6D object pose estimation
and reconstruction that exploits 3D priors and uncertainty estimates from a
pre-trained diffusion model. Specifically, starting from a single-view RGB-D
frame, UnPose uses a multi-view diffusion model to estimate an initial 3D model
using 3D Gaussian Splatting (3DGS) representation, along with pixel-wise
epistemic uncertainty estimates. As additional observations become available,
we incrementally refine the 3DGS model by fusing new views guided by the
diffusion model's uncertainty, thereby continuously improving the pose
estimation accuracy and 3D reconstruction quality. To ensure global
consistency, the diffusion prior-generated views and subsequent observations
are further integrated in a pose graph and jointly optimized into a coherent
3DGS field. Extensive experiments demonstrate that UnPose significantly
outperforms existing approaches in both 6D pose estimation accuracy and 3D
reconstruction quality. We further showcase its practical applicability in
real-world robotic manipulation tasks.
Ссылки и действия
Дополнительные ресурсы: