ScrewSplat: An End-to-End Method for Articulated Object Recognition

2508.02146v1 cs.RO, cs.CV 2025-08-09
Авторы:

Seungyeon Kim, Junsu Ha, Young Hun Kim, Yonghyeon Lee, Frank C. Park

Резюме на русском

**Резюме** Распознавание интерактивных объектов, состоящих из нескольких движущихся частей (articulated objects), является ключевым для развития робототехники. Однако существующие методы часто используют жесткие предположения, требуют дополнительных входных данных (например, глубинных изображений) или включают сложные промежуточные этапы, что снижает их практичность. В данной работе предлагается ScrewSplat — простой и эффективный метод, работающий только с RGB-изображениями. Он начинает с случайного инициализации сверхзубцовых осей и итеративно оптимизирует их для восстановления кинематической структуры объекта. Используя технологию Gaussian Splatting, метод возвращает 3D-реконструкцию и сегментацию объекта на rigid и movable части. Эксперименты показали, что ScrewSplat достигает высокой точности распознавания и позволяет применять zero-shot text-guided manipulation с помощью полученного кинематического моделирования. Этот подход открывает новые возможности для интерактивного взаимодействия роботов с существующими средствами.

Abstract

Articulated object recognition -- the task of identifying both the geometry and kinematic joints of objects with movable parts -- is essential for enabling robots to interact with everyday objects such as doors and laptops. However, existing approaches often rely on strong assumptions, such as a known number of articulated parts; require additional inputs, such as depth images; or involve complex intermediate steps that can introduce potential errors -- limiting their practicality in real-world settings. In this paper, we introduce ScrewSplat, a simple end-to-end method that operates solely on RGB observations. Our approach begins by randomly initializing screw axes, which are then iteratively optimized to recover the object's underlying kinematic structure. By integrating with Gaussian Splatting, we simultaneously reconstruct the 3D geometry and segment the object into rigid, movable parts. We demonstrate that our method achieves state-of-the-art recognition accuracy across a diverse set of articulated objects, and further enables zero-shot, text-guided manipulation using the recovered kinematic model.

Ссылки и действия