Grasp Like Humans: Learning Generalizable Multi-Fingered Grasping from Human Proprioceptive Sensorimotor Integration
2509.08354v1
cs.RO, cs.AI
2025-09-12
Авторы:
Ce Guo, Xieyuanli Chen, Zhiwen Zeng, Zirui Guo, Yihong Li, Haoran Xiao, Dewen Hu, Huimin Lu
Резюме на русском
## Контекст
Декстерная манипуляция человека основывается на тактильных и кинематических ощущениях, которые обеспечивают надежные захваты предметов. Однако передача таких сенсорных сигналов на уровне моторных действий для роботских рук остается нерешенной проблемой. Недостаток универсальных алгоритмов, которые могли бы эффективно передавать человеческие гриппинг-скиллы на нейрохирургические роботы, требует развития новых подходов. Наша мотивация заключается в разработке простого, но эффективного метода для получения и передачи гриппинг-скиллов человека на роботы, чтобы увеличить уровень интеграции роботов в повседневную сферу.
## Метод
Мы предлагаем нейросетевую модель, которая решает задачу передачи гриппинг-скиллов с помощью графовых структур и LSTM-слоя. Интегрируя данные от датчиков гантели, мы формируем универсальное представление данных, которое может быть использовано как для человеческих рук, так и для роботских. Модель основывается на многомерных субграфных конволюциях и аттенционных LSTM-слоях для выделения спатспросио-временных признаков. Наши архитектурные решения позволяют обучать модель на примерах человеческих рук и переносить их на роботы без потери качества.
## Результаты
Мы проводили эксперименты на широком спектре задач, включая захват деформируемых предметов. Результаты показали, что наш подход превосходит другие методы по уровню устойчивости и точности захвата. Мы протестировали нашу модель на роботах со складывающимися пальцами и статическими пальцами. Итоговые результаты подтверждают значительный урпах модели в гриппинг-скилле с низким количеством ошибок и максимальной универсальностью.
## Значимость
Наш подход может быть применен в различных сферах, включая нейрохирургию, где роботы должны эффективно интерактировать с объектами в трехмерном пространстве. Он предоставляет высокую точность и универсальность, что позволяет централизованно управлять роботом в различных сценариях. Мы также отмечаем, что наш подход может улучшить качество жизни за счет мобилизации роботов в повседневной сфере.
## Выводы
Мы разработали метод, который позволяет эффективно передавать гриппинг-скиллы с помощью графовых структур и LSTM. Модель стабильно работает в разных условиях и демонстрирует высокую универсальность. В дальнейшем мы планируем расширить нашу модель, включив в нее более сложные задачи, такие как динамическая синхронизация рук и роботов.
Abstract
Tactile and kinesthetic perceptions are crucial for human dexterous
manipulation, enabling reliable grasping of objects via proprioceptive
sensorimotor integration. For robotic hands, even though acquiring such tactile
and kinesthetic feedback is feasible, establishing a direct mapping from this
sensory feedback to motor actions remains challenging. In this paper, we
propose a novel glove-mediated tactile-kinematic perception-prediction
framework for grasp skill transfer from human intuitive and natural operation
to robotic execution based on imitation learning, and its effectiveness is
validated through generalized grasping tasks, including those involving
deformable objects. Firstly, we integrate a data glove to capture tactile and
kinesthetic data at the joint level. The glove is adaptable for both human and
robotic hands, allowing data collection from natural human hand demonstrations
across different scenarios. It ensures consistency in the raw data format,
enabling evaluation of grasping for both human and robotic hands. Secondly, we
establish a unified representation of multi-modal inputs based on graph
structures with polar coordinates. We explicitly integrate the morphological
differences into the designed representation, enhancing the compatibility
across different demonstrators and robotic hands. Furthermore, we introduce the
Tactile-Kinesthetic Spatio-Temporal Graph Networks (TK-STGN), which leverage
multidimensional subgraph convolutions and attention-based LSTM layers to
extract spatio-temporal features from graph inputs to predict node-based states
for each hand joint. These predictions are then mapped to final commands
through a force-position hybrid mapping.
Ссылки и действия
Дополнительные ресурсы: