Grasp-HGN: Grasping the Unexpected
2508.07648v1
cs.RO, cs.AI, cs.LG
2025-08-13
Авторы:
Mehrshad Zandigohar, Mallesham Dasari, Gunar Schirner
Резюме на русском
#### Контекст
Роботизированные протезные руки представляют большой потенциал для восстановления возможности выполнять повседневные задачи у людей, страдающих трансрадиальными ампутациями. Однако проблемами, стоящими перед современными моделями управления, является недостаточная устойчивость к нестандартным реальностям и неограниченному разнообразию объектов. Традиционные системы определения захватов строятся на ограниченных данных, в том числе тренировочных базах, которые не могут полностью охватить реальность. Это приводит к значительному снижению точности при определении захватов на неизвестных объектах, что сказывается на доступности и качестве жизни пользователей. Для решения этого, необходимо развитие моделей, которые могут обнаруживать и адаптироваться к новым объектам, не входящим в обучающие наборы.
#### Метод
Мы предлагаем **Grasp-LLaVA**, модель, которая использует технологии графики и языка для точного определения захвата. Она включает в себя три основных компонента: (i) **semantic projection**, которая определяет моделью возможность обобщения на неизвестные объекты; (ii) **Grasp-LLaVA**, где используется гибридное рассуждение, которое моделирует человеческие модели рассуждения для определения типов захвата, основываясь на физических характеристиках объекта; (iii) **Hybrid Grasp Network (HGN)**, система, которая разделяет работу между локальным (edge) и облачным (cloud) вычислениями, обеспечивая быстродействие на реальном времени и точность при необходимости.
#### Результаты
Мы оценили нашу модель на нескольких датасетах, включая набор данных с неизвестными объектами. **Grasp-LLaVA** показала значительное улучшение в сравнении с современными моделями, достигнув 50.2% точности для неизвестных объектов, в то время как лучшие модели современных систем оставались на уровне 36.7%. Благодаря **HGN**, мы достигли значительных улучшений в быстродействии, достигнув 86% усредненной точности на реальных объектах, что является значительной улучшением по сравнению с отдельным использованием моделей или edge-only решений. Добавление **confidence calibration (DC)** позволило повысить точность до 42.3% при работе с неизвестными объектами и уменьшить время вывода на 3.5 раз.
#### Значимость
**Grasp-LLaVA** и **Hybrid Grasp Network (HGN)** открывают новые возможности для улучшения контроля над протезными руками. Они могут быть применены в различных областях, включая лечебную аппаратуру, технологии для людей с ограниченными физическими возможностями и в области робототехники. Интеграция этих моделей в протезы может существенно улучшить их реакцию на новые объекты, предоставив пользователям более простой доступ к действиям в реа
Abstract
For transradial amputees, robotic prosthetic hands promise to regain the
capability to perform daily living activities. To advance next-generation
prosthetic hand control design, it is crucial to address current shortcomings
in robustness to out of lab artifacts, and generalizability to new
environments. Due to the fixed number of object to interact with in existing
datasets, contrasted with the virtually infinite variety of objects encountered
in the real world, current grasp models perform poorly on unseen objects,
negatively affecting users' independence and quality of life.
To address this: (i) we define semantic projection, the ability of a model to
generalize to unseen object types and show that conventional models like YOLO,
despite 80% training accuracy, drop to 15% on unseen objects. (ii) we propose
Grasp-LLaVA, a Grasp Vision Language Model enabling human-like reasoning to
infer the suitable grasp type estimate based on the object's physical
characteristics resulting in a significant 50.2% accuracy over unseen object
types compared to 36.7% accuracy of an SOTA grasp estimation model.
Lastly, to bridge the performance-latency gap, we propose Hybrid Grasp
Network (HGN), an edge-cloud deployment infrastructure enabling fast grasp
estimation on edge and accurate cloud inference as a fail-safe, effectively
expanding the latency vs. accuracy Pareto. HGN with confidence calibration (DC)
enables dynamic switching between edge and cloud models, improving semantic
projection accuracy by 5.6% (to 42.3%) with 3.5x speedup over the unseen object
types. Over a real-world sample mix, it reaches 86% average accuracy (12.2%
gain over edge-only), and 2.2x faster inference than Grasp-LLaVA alone.
Ссылки и действия
Дополнительные ресурсы: