OmniShape: Zero-Shot Multi-Hypothesis Shape and Pose Estimation in the Real World

2508.03669v1 cs.CV, cs.RO 2025-08-09
Авторы:

Katherine Liu, Sergey Zakharov, Dian Chen, Takuya Ikeda, Greg Shakhnarovich, Adrien Gaidon, Rares Ambrus

Резюме на русском

Оценивание полной формы и положения объектов на основе единственного наблюдения — это сложная задача в реальном мире, особенно когда неизвестен 3D-модель или категория объекта. В статье предлагается OmniShape, первая методика, позволяющая выполнять нулевой-слотное оценивание положения и полной формы объекта. OmniShape основывается на осознании, что завершение формы может рассматриваться как двухмодальные распределения: одно следует из проекций на стандартный ссылочный референс объектов в наборе, а другое — из предшествующего распределения объектных геометрий, описываемых трипланарными нейронными полями. Отдельной условными диффузионными моделями обучаются обе эти многомодальные распределения, что позволяет использовать вероятностные модели для генерации множества гипотез по положению и форме. Эксперименты показывают, что OmniShape выдает высокую точность при оценке реальных данных. Это решение наделяет методов новыми возможностями внедрения в реальные приложения.

Abstract

We would like to estimate the pose and full shape of an object from a single observation, without assuming known 3D model or category. In this work, we propose OmniShape, the first method of its kind to enable probabilistic pose and shape estimation. OmniShape is based on the key insight that shape completion can be decoupled into two multi-modal distributions: one capturing how measurements project into a normalized object reference frame defined by the dataset and the other modelling a prior over object geometries represented as triplanar neural fields. By training separate conditional diffusion models for these two distributions, we enable sampling multiple hypotheses from the joint pose and shape distribution. OmniShape demonstrates compelling performance on challenging real world datasets. Project website: https://tri-ml.github.io/omnishape

Ссылки и действия