ScrewSplat: An End-to-End Method for Articulated Object Recognition

2508.02146v1 cs.RO, cs.CV 2025-08-09

Авторы:

Seungyeon Kim, Junsu Ha, Young Hun Kim, Yonghyeon Lee, Frank C. Park

Резюме на русском

**Резюме** Распознавание интерактивных объектов, состоящих из нескольких движущихся частей (articulated objects), является ключевым для развития робототехники. Однако существующие методы часто используют жесткие предположения, требуют дополнительных входных данных (например, глубинных изображений) или включают сложные промежуточные этапы, что снижает их практичность. В данной работе предлагается ScrewSplat — простой и эффективный метод, работающий только с RGB-изображениями. Он начинает с случайного инициализации сверхзубцовых осей и итеративно оптимизирует их для восстановления кинематической структуры объекта. Используя технологию Gaussian Splatting, метод возвращает 3D-реконструкцию и сегментацию объекта на rigid и movable части. Эксперименты показали, что ScrewSplat достигает высокой точности распознавания и позволяет применять zero-shot text-guided manipulation с помощью полученного кинематического моделирования. Этот подход открывает новые возможности для интерактивного взаимодействия роботов с существующими средствами.

Abstract

Articulated object recognition -- the task of identifying both the geometry and kinematic joints of objects with movable parts -- is essential for enabling robots to interact with everyday objects such as doors and laptops. However, existing approaches often rely on strong assumptions, such as a known number of articulated parts; require additional inputs, such as depth images; or involve complex intermediate steps that can introduce potential errors -- limiting their practicality in real-world settings. In this paper, we introduce ScrewSplat, a simple end-to-end method that operates solely on RGB observations. Our approach begins by randomly initializing screw axes, which are then iteratively optimized to recover the object's underlying kinematic structure. By integrating with Gaussian Splatting, we simultaneously reconstruct the 3D geometry and segment the object into rigid, movable parts. We demonstrate that our method achieves state-of-the-art recognition accuracy across a diverse set of articulated objects, and further enables zero-shot, text-guided manipulation using the recovered kinematic model.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ScrewSplat: An End-to-End Method for Articulated Object Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация