Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

2509.18979v1 cs.RO, cs.CV 2025-09-25
Авторы:

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone

Резюме на русском

## Контекст Область исследования, посвященная категорийному уровню оценки формы и положения объектов, является ключевой для многих задач в области робототехники, включая манипуляции, сценарное понимание и навигацию. Одним из основных вызовов является достижение высокой скорости расчёта с минимальным потреблением ресурсов. Существующие методы, хотя и могут обеспечить точность, часто требуют долгих вычислений и неэффективно используют свойства категории объектов. Мотивация для данного исследования заключается в создании быстрого, эффективного алгоритма, который может работать на уровне категории и обеспечить высокую скорость решения задачи с минимальными затратами вычислительных ресурсов. ## Метод Предлагаемый подход включает в себя два основных этапа. В первую очередь, используется нейронная сеть для определения спарсевых, категорийных семантических ключевых точек на объекте. Эти точки используются для построения линейной активной модели формы объекта. Затем, для решения задачи оптимизации максимума вероятности (MAP), которая решает задачу поиска положения, ориентации и формы объекта, используется самостоятельная полярная итерация (self-consistent field iteration). Этот метод эффективно решает уравнения, связанные с оптимальными условиями, воспользовавшись свойствами эйнштейновского спектра. Решение для вектора положения, ориентации и формы вычисляется за один проход, что обеспечивает высокую скорость. ## Результаты Авторы провестили эксперименты на синтетических данных, а также на реальных наборах данных, включая две общедоступные базы данных. Была оценена точность и скорость работы алгоритма. Обнаружено, что система достигает решения за менее 1 миллисекунды, что значительно превосходит скорость многих современных методов. Также было продемонстрировано, что алгоритм достаточно точен для решения задач манипуляции и сценарного понимания. Данные эксперименты подтверждают высокую эффективность и скорость работы предлагаемого метода. ## Значимость Предлагаемый подход может быть применён в различных робототехнических системах, включая манипуляционные роботы, виртуальную реальность и системы поиска и слежения. Он обеспечивает высокую скорость и точность, что делает его привлекательным для отраслей, требующих реального времени решений. Кроме того, способность алгоритма работать на уровне категории объекта позволяет уменьшить нагрузку на системы, используя только примитивные категории, а не точные модели. Это делает метод эффективным в сценариях, где доступ к полной модели объекта недоступен или не требуется. ## Выводы Предлагаемый м

Abstract

Object shape and pose estimation is a foundational robotics problem, supporting tasks from manipulation to scene understanding and navigation. We present a fast local solver for shape and pose estimation which requires only category-level object priors and admits an efficient certificate of global optimality. Given an RGB-D image of an object, we use a learned front-end to detect sparse, category-level semantic keypoints on the target object. We represent the target object's unknown shape using a linear active shape model and pose a maximum a posteriori optimization problem to solve for position, orientation, and shape simultaneously. Expressed in unit quaternions, this problem admits first-order optimality conditions in the form of an eigenvalue problem with eigenvector nonlinearities. Our primary contribution is to solve this problem efficiently with self-consistent field iteration, which only requires computing a 4-by-4 matrix and finding its minimum eigenvalue-vector pair at each iterate. Solving a linear system for the corresponding Lagrange multipliers gives a simple global optimality certificate. One iteration of our solver runs in about 100 microseconds, enabling fast outlier rejection. We test our method on synthetic data and a variety of real-world settings, including two public datasets and a drone tracking scenario. Code is released at https://github.com/MIT-SPARK/Fast-ShapeAndPose.

Ссылки и действия