ScrewSplat: An End-to-End Method for Articulated Object Recognition
2508.02146v1
cs.RO, cs.CV
2025-08-09
Авторы:
Seungyeon Kim, Junsu Ha, Young Hun Kim, Yonghyeon Lee, Frank C. Park
Резюме на русском
**Резюме**
Распознавание интерактивных объектов, состоящих из нескольких движущихся частей (articulated objects), является ключевым для развития робототехники. Однако существующие методы часто используют жесткие предположения, требуют дополнительных входных данных (например, глубинных изображений) или включают сложные промежуточные этапы, что снижает их практичность. В данной работе предлагается ScrewSplat — простой и эффективный метод, работающий только с RGB-изображениями. Он начинает с случайного инициализации сверхзубцовых осей и итеративно оптимизирует их для восстановления кинематической структуры объекта. Используя технологию Gaussian Splatting, метод возвращает 3D-реконструкцию и сегментацию объекта на rigid и movable части. Эксперименты показали, что ScrewSplat достигает высокой точности распознавания и позволяет применять zero-shot text-guided manipulation с помощью полученного кинематического моделирования. Этот подход открывает новые возможности для интерактивного взаимодействия роботов с существующими средствами.
Abstract
Articulated object recognition -- the task of identifying both the geometry
and kinematic joints of objects with movable parts -- is essential for enabling
robots to interact with everyday objects such as doors and laptops. However,
existing approaches often rely on strong assumptions, such as a known number of
articulated parts; require additional inputs, such as depth images; or involve
complex intermediate steps that can introduce potential errors -- limiting
their practicality in real-world settings. In this paper, we introduce
ScrewSplat, a simple end-to-end method that operates solely on RGB
observations. Our approach begins by randomly initializing screw axes, which
are then iteratively optimized to recover the object's underlying kinematic
structure. By integrating with Gaussian Splatting, we simultaneously
reconstruct the 3D geometry and segment the object into rigid, movable parts.
We demonstrate that our method achieves state-of-the-art recognition accuracy
across a diverse set of articulated objects, and further enables zero-shot,
text-guided manipulation using the recovered kinematic model.
Ссылки и действия
Дополнительные ресурсы: