OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection
2509.04324v1
cs.RO, cs.CV
2025-09-06
Авторы:
Chen Hu, Shan Luo, Letizia Gionfrida
Резюме на русском
## Контекст
Очень важной задачей в современной медицине и технологиях помощи дисабилитетам является восстановление автономии движений у людей с моторными ограничениями. Особенно трудной областью является ситуация в неструктурированных окружениях, где объекты и поведение пользователя могут быть разнообразными и непредсказуемыми. Grasping assistance (помощь в захват) заключается в помощи изготовления захвата руки для подхвата и удержания предметов. Однако существующие системы часто ограничены возможностями распознавания конкретных категорий предметов или использования фиксированных команд. Это неэффективно в условиях неопределенности и специфики открытых пространств. Целью данного исследования является разработка нового подхода к сенсорному захвату, который может работать в различных ситуациях и не требует предварительной подготовки к распознаванию конкретных предметов.
## Метод
Предлагаемая система, OVGrasp (Open-Vocabulary Grasping Assistance), использует краткие текстовые подсказки – open-vocabulary prompts – и голосовые команды, чтобы взаимодействовать с объектами в реальном времени. Основой системы является подход, основанный на визуальном анализе RGB-D изображений и текстовых описаний, что позволяет использовать расширенную модель видения-языка (Vision-Language Foundation Model). Механизм распознавания неизвестных объектов в режиме zero-shot делает систему универсальной и без необходимости повторного обучения. Для определения желаемых действий (захват или отпускание), система использует многомодальный групповой алгоритм, который объединяет визуальные и языковые сигналы для точного определения поведенческой мотивации. Такой подход позволяет использовать OVGrasp в различных ситуациях, где требуется самостоятельность в работе с неизвестными предметами.
## Результаты
Оценки OVGrasp проводились на 15 различных предметах, разделенных на три категории захвата: прямой захват, подхват с выше и подхват с низу. Использовались данные 10 участников с разными уровнями опыта взаимодействия с технологией. Основной метрикой стала Grasping Ability Score (GAS), отражающая степень успешности захвата. Оценка GAS составила 87.00%, что превышает результаты существующих алгоритмов. Также была замечена повышенная точность в движениях, что является ключевым преимуществом для создания более натуральных движений. Эти результаты показывают высокую эффективность OVGrasp в условиях повседневного использования.
## Значимость
Разработанная система имеет широкие возможности применения в сфере медицины, помощи немоторным людям и робототехнике. Ос
Abstract
Grasping assistance is essential for restoring autonomy in individuals with
motor impairments, particularly in unstructured environments where object
categories and user intentions are diverse and unpredictable. We present
OVGrasp, a hierarchical control framework for soft exoskeleton-based grasp
assistance that integrates RGB-D vision, open-vocabulary prompts, and voice
commands to enable robust multimodal interaction. To enhance generalization in
open environments, OVGrasp incorporates a vision-language foundation model with
an open-vocabulary mechanism, allowing zero-shot detection of previously unseen
objects without retraining. A multimodal decision-maker further fuses spatial
and linguistic cues to infer user intent, such as grasp or release, in
multi-object scenarios. We deploy the complete framework on a custom
egocentric-view wearable exoskeleton and conduct systematic evaluations on 15
objects across three grasp types. Experimental results with ten participants
demonstrate that OVGrasp achieves a grasping ability score (GAS) of 87.00%,
outperforming state-of-the-art baselines and achieving improved kinematic
alignment with natural hand motion.
Ссылки и действия
Дополнительные ресурсы: