Articulated Object Estimation in the Wild

2509.01708v1 cs.RO, cs.CV 2025-09-05
Авторы:

Abdelrhman Werby, Martin Büchner, Adrian Röfer, Chenguang Huang, Wolfram Burgard, Abhinav Valada

Резюме на русском

#### Контекст Изучение трёхмерного движения и моделирование отдельных частей (articulated objects) играет ключевую роль в области робототехники, в том числе в сценарных распознаваниих, мобильном манипулировании и планировании движения. Несмотря на прогресс в области нейросетевых моделей, существующие подходы требуют стабильных камерных видов и чётко заданных объектных состояний, что ограничивает их применение в реальных, нестандартных условиях. В то же время, люди эффективно интерпретируют движение и отдельные части объектов, даже при плохом видении или изменениях положения камеры. Эта способность вдохновила разработку нового фреймворка для распознавания отдельных частей объектов в реальных условиях, учитывающих динамический ход камеры и неполные данные. #### Метод Предлагаемый фреймворк ArtiPoint основывается на сочетании глубокого анализа потока точек (deep point tracking) и оптимизации факторной сетки (factor graph optimization). Он позволяет проанализировать беспрерывные RGB-D видео и извлечь траектории частей объекта, а также параметры их отделимости (articulation axes). Данный подход предназначен для оптимизации под неидеальные условия, включая динамические перемещения камеры и полноугольные модели объектов. Таким образом, ArtiPoint имеет высокую точность и устойчивость в сценах с большим количеством движения и сложными интерфейсами. #### Результаты Эксперименты проводились на новой эгоцентрической датасете Arti4D, который включает в себя видео сцен с трёхмерными положениями объектов и их движений. ArtiPoint показал существенно более высокую точность по сравнению с классическими и нейросетевыми базлами. Он подходит для анализа сложных движений и взаимодействий, особенно в сценах с нестабильным видом или частичной информацией. Результаты показывают, что ArtiPoint превосходит в размере погрешности и стабильности другие подходы. #### Значимость Предлагаемый подход может быть применён в областях, таких как мобильное манипулирование, робототехническое планирование и сценарное распознавание. Особенно он полезен для ситуаций, когда объект неполностью виден, или при отсутствии статического расположения камеры. Это открывает новые возможности для роботов, работающих в реальных условиях, например, для роботов-мультиплексоров или роботов участвующих в сценарной работе. #### Выводы ArtiPoint ставит новый акцент на распознавание отдельных частей объектов в нестандартных условиях, используя глубокую аналогию с человеческим восприятием. Это является значительным прорывом в области робототехники и сценарного распознавания. Будущие исследования будут фокусироваться на улучшении точ

Abstract

Understanding the 3D motion of articulated objects is essential in robotic scene understanding, mobile manipulation, and motion planning. Prior methods for articulation estimation have primarily focused on controlled settings, assuming either fixed camera viewpoints or direct observations of various object states, which tend to fail in more realistic unconstrained environments. In contrast, humans effortlessly infer articulation by watching others manipulate objects. Inspired by this, we introduce ArtiPoint, a novel estimation framework that can infer articulated object models under dynamic camera motion and partial observability. By combining deep point tracking with a factor graph optimization framework, ArtiPoint robustly estimates articulated part trajectories and articulation axes directly from raw RGB-D videos. To foster future research in this domain, we introduce Arti4D, the first ego-centric in-the-wild dataset that captures articulated object interactions at a scene level, accompanied by articulation labels and ground-truth camera poses. We benchmark ArtiPoint against a range of classical and learning-based baselines, demonstrating its superior performance on Arti4D. We make code and Arti4D publicly available at https://artipoint.cs.uni-freiburg.de.

Ссылки и действия