Category-Level Object Shape and Pose Estimation in Less Than a Millisecond
2509.18979v1
cs.RO, cs.CV
2025-09-25
Авторы:
Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone
Резюме на русском
## Контекст
Область исследования, посвященная категорийному уровню оценки формы и положения объектов, является ключевой для многих задач в области робототехники, включая манипуляции, сценарное понимание и навигацию. Одним из основных вызовов является достижение высокой скорости расчёта с минимальным потреблением ресурсов. Существующие методы, хотя и могут обеспечить точность, часто требуют долгих вычислений и неэффективно используют свойства категории объектов. Мотивация для данного исследования заключается в создании быстрого, эффективного алгоритма, который может работать на уровне категории и обеспечить высокую скорость решения задачи с минимальными затратами вычислительных ресурсов.
## Метод
Предлагаемый подход включает в себя два основных этапа. В первую очередь, используется нейронная сеть для определения спарсевых, категорийных семантических ключевых точек на объекте. Эти точки используются для построения линейной активной модели формы объекта. Затем, для решения задачи оптимизации максимума вероятности (MAP), которая решает задачу поиска положения, ориентации и формы объекта, используется самостоятельная полярная итерация (self-consistent field iteration). Этот метод эффективно решает уравнения, связанные с оптимальными условиями, воспользовавшись свойствами эйнштейновского спектра. Решение для вектора положения, ориентации и формы вычисляется за один проход, что обеспечивает высокую скорость.
## Результаты
Авторы провестили эксперименты на синтетических данных, а также на реальных наборах данных, включая две общедоступные базы данных. Была оценена точность и скорость работы алгоритма. Обнаружено, что система достигает решения за менее 1 миллисекунды, что значительно превосходит скорость многих современных методов. Также было продемонстрировано, что алгоритм достаточно точен для решения задач манипуляции и сценарного понимания. Данные эксперименты подтверждают высокую эффективность и скорость работы предлагаемого метода.
## Значимость
Предлагаемый подход может быть применён в различных робототехнических системах, включая манипуляционные роботы, виртуальную реальность и системы поиска и слежения. Он обеспечивает высокую скорость и точность, что делает его привлекательным для отраслей, требующих реального времени решений. Кроме того, способность алгоритма работать на уровне категории объекта позволяет уменьшить нагрузку на системы, используя только примитивные категории, а не точные модели. Это делает метод эффективным в сценариях, где доступ к полной модели объекта недоступен или не требуется.
## Выводы
Предлагаемый м
Abstract
Object shape and pose estimation is a foundational robotics problem,
supporting tasks from manipulation to scene understanding and navigation. We
present a fast local solver for shape and pose estimation which requires only
category-level object priors and admits an efficient certificate of global
optimality. Given an RGB-D image of an object, we use a learned front-end to
detect sparse, category-level semantic keypoints on the target object. We
represent the target object's unknown shape using a linear active shape model
and pose a maximum a posteriori optimization problem to solve for position,
orientation, and shape simultaneously. Expressed in unit quaternions, this
problem admits first-order optimality conditions in the form of an eigenvalue
problem with eigenvector nonlinearities. Our primary contribution is to solve
this problem efficiently with self-consistent field iteration, which only
requires computing a 4-by-4 matrix and finding its minimum eigenvalue-vector
pair at each iterate. Solving a linear system for the corresponding Lagrange
multipliers gives a simple global optimality certificate. One iteration of our
solver runs in about 100 microseconds, enabling fast outlier rejection. We test
our method on synthetic data and a variety of real-world settings, including
two public datasets and a drone tracking scenario. Code is released at
https://github.com/MIT-SPARK/Fast-ShapeAndPose.
Ссылки и действия
Дополнительные ресурсы: