Grasp Like Humans: Learning Generalizable Multi-Fingered Grasping from Human Proprioceptive Sensorimotor Integration

2509.08354v1 cs.RO, cs.AI 2025-09-12
Авторы:

Ce Guo, Xieyuanli Chen, Zhiwen Zeng, Zirui Guo, Yihong Li, Haoran Xiao, Dewen Hu, Huimin Lu

Резюме на русском

## Контекст Декстерная манипуляция человека основывается на тактильных и кинематических ощущениях, которые обеспечивают надежные захваты предметов. Однако передача таких сенсорных сигналов на уровне моторных действий для роботских рук остается нерешенной проблемой. Недостаток универсальных алгоритмов, которые могли бы эффективно передавать человеческие гриппинг-скиллы на нейрохирургические роботы, требует развития новых подходов. Наша мотивация заключается в разработке простого, но эффективного метода для получения и передачи гриппинг-скиллов человека на роботы, чтобы увеличить уровень интеграции роботов в повседневную сферу. ## Метод Мы предлагаем нейросетевую модель, которая решает задачу передачи гриппинг-скиллов с помощью графовых структур и LSTM-слоя. Интегрируя данные от датчиков гантели, мы формируем универсальное представление данных, которое может быть использовано как для человеческих рук, так и для роботских. Модель основывается на многомерных субграфных конволюциях и аттенционных LSTM-слоях для выделения спатспросио-временных признаков. Наши архитектурные решения позволяют обучать модель на примерах человеческих рук и переносить их на роботы без потери качества. ## Результаты Мы проводили эксперименты на широком спектре задач, включая захват деформируемых предметов. Результаты показали, что наш подход превосходит другие методы по уровню устойчивости и точности захвата. Мы протестировали нашу модель на роботах со складывающимися пальцами и статическими пальцами. Итоговые результаты подтверждают значительный урпах модели в гриппинг-скилле с низким количеством ошибок и максимальной универсальностью. ## Значимость Наш подход может быть применен в различных сферах, включая нейрохирургию, где роботы должны эффективно интерактировать с объектами в трехмерном пространстве. Он предоставляет высокую точность и универсальность, что позволяет централизованно управлять роботом в различных сценариях. Мы также отмечаем, что наш подход может улучшить качество жизни за счет мобилизации роботов в повседневной сфере. ## Выводы Мы разработали метод, который позволяет эффективно передавать гриппинг-скиллы с помощью графовых структур и LSTM. Модель стабильно работает в разных условиях и демонстрирует высокую универсальность. В дальнейшем мы планируем расширить нашу модель, включив в нее более сложные задачи, такие как динамическая синхронизация рук и роботов.

Abstract

Tactile and kinesthetic perceptions are crucial for human dexterous manipulation, enabling reliable grasping of objects via proprioceptive sensorimotor integration. For robotic hands, even though acquiring such tactile and kinesthetic feedback is feasible, establishing a direct mapping from this sensory feedback to motor actions remains challenging. In this paper, we propose a novel glove-mediated tactile-kinematic perception-prediction framework for grasp skill transfer from human intuitive and natural operation to robotic execution based on imitation learning, and its effectiveness is validated through generalized grasping tasks, including those involving deformable objects. Firstly, we integrate a data glove to capture tactile and kinesthetic data at the joint level. The glove is adaptable for both human and robotic hands, allowing data collection from natural human hand demonstrations across different scenarios. It ensures consistency in the raw data format, enabling evaluation of grasping for both human and robotic hands. Secondly, we establish a unified representation of multi-modal inputs based on graph structures with polar coordinates. We explicitly integrate the morphological differences into the designed representation, enhancing the compatibility across different demonstrators and robotic hands. Furthermore, we introduce the Tactile-Kinesthetic Spatio-Temporal Graph Networks (TK-STGN), which leverage multidimensional subgraph convolutions and attention-based LSTM layers to extract spatio-temporal features from graph inputs to predict node-based states for each hand joint. These predictions are then mapped to final commands through a force-position hybrid mapping.

Ссылки и действия