Grasp-HGN: Grasping the Unexpected

2508.07648v1 cs.RO, cs.AI, cs.LG 2025-08-13
Авторы:

Mehrshad Zandigohar, Mallesham Dasari, Gunar Schirner

Резюме на русском

#### Контекст Роботизированные протезные руки представляют большой потенциал для восстановления возможности выполнять повседневные задачи у людей, страдающих трансрадиальными ампутациями. Однако проблемами, стоящими перед современными моделями управления, является недостаточная устойчивость к нестандартным реальностям и неограниченному разнообразию объектов. Традиционные системы определения захватов строятся на ограниченных данных, в том числе тренировочных базах, которые не могут полностью охватить реальность. Это приводит к значительному снижению точности при определении захватов на неизвестных объектах, что сказывается на доступности и качестве жизни пользователей. Для решения этого, необходимо развитие моделей, которые могут обнаруживать и адаптироваться к новым объектам, не входящим в обучающие наборы. #### Метод Мы предлагаем **Grasp-LLaVA**, модель, которая использует технологии графики и языка для точного определения захвата. Она включает в себя три основных компонента: (i) **semantic projection**, которая определяет моделью возможность обобщения на неизвестные объекты; (ii) **Grasp-LLaVA**, где используется гибридное рассуждение, которое моделирует человеческие модели рассуждения для определения типов захвата, основываясь на физических характеристиках объекта; (iii) **Hybrid Grasp Network (HGN)**, система, которая разделяет работу между локальным (edge) и облачным (cloud) вычислениями, обеспечивая быстродействие на реальном времени и точность при необходимости. #### Результаты Мы оценили нашу модель на нескольких датасетах, включая набор данных с неизвестными объектами. **Grasp-LLaVA** показала значительное улучшение в сравнении с современными моделями, достигнув 50.2% точности для неизвестных объектов, в то время как лучшие модели современных систем оставались на уровне 36.7%. Благодаря **HGN**, мы достигли значительных улучшений в быстродействии, достигнув 86% усредненной точности на реальных объектах, что является значительной улучшением по сравнению с отдельным использованием моделей или edge-only решений. Добавление **confidence calibration (DC)** позволило повысить точность до 42.3% при работе с неизвестными объектами и уменьшить время вывода на 3.5 раз. #### Значимость **Grasp-LLaVA** и **Hybrid Grasp Network (HGN)** открывают новые возможности для улучшения контроля над протезными руками. Они могут быть применены в различных областях, включая лечебную аппаратуру, технологии для людей с ограниченными физическими возможностями и в области робототехники. Интеграция этих моделей в протезы может существенно улучшить их реакцию на новые объекты, предоставив пользователям более простой доступ к действиям в реа

Abstract

For transradial amputees, robotic prosthetic hands promise to regain the capability to perform daily living activities. To advance next-generation prosthetic hand control design, it is crucial to address current shortcomings in robustness to out of lab artifacts, and generalizability to new environments. Due to the fixed number of object to interact with in existing datasets, contrasted with the virtually infinite variety of objects encountered in the real world, current grasp models perform poorly on unseen objects, negatively affecting users' independence and quality of life. To address this: (i) we define semantic projection, the ability of a model to generalize to unseen object types and show that conventional models like YOLO, despite 80% training accuracy, drop to 15% on unseen objects. (ii) we propose Grasp-LLaVA, a Grasp Vision Language Model enabling human-like reasoning to infer the suitable grasp type estimate based on the object's physical characteristics resulting in a significant 50.2% accuracy over unseen object types compared to 36.7% accuracy of an SOTA grasp estimation model. Lastly, to bridge the performance-latency gap, we propose Hybrid Grasp Network (HGN), an edge-cloud deployment infrastructure enabling fast grasp estimation on edge and accurate cloud inference as a fail-safe, effectively expanding the latency vs. accuracy Pareto. HGN with confidence calibration (DC) enables dynamic switching between edge and cloud models, improving semantic projection accuracy by 5.6% (to 42.3%) with 3.5x speedup over the unseen object types. Over a real-world sample mix, it reaches 86% average accuracy (12.2% gain over edge-only), and 2.2x faster inference than Grasp-LLaVA alone.

Ссылки и действия