OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection

2509.04324v1 cs.RO, cs.CV 2025-09-06

Авторы:

Chen Hu, Shan Luo, Letizia Gionfrida

Резюме на русском

## Контекст Очень важной задачей в современной медицине и технологиях помощи дисабилитетам является восстановление автономии движений у людей с моторными ограничениями. Особенно трудной областью является ситуация в неструктурированных окружениях, где объекты и поведение пользователя могут быть разнообразными и непредсказуемыми. Grasping assistance (помощь в захват) заключается в помощи изготовления захвата руки для подхвата и удержания предметов. Однако существующие системы часто ограничены возможностями распознавания конкретных категорий предметов или использования фиксированных команд. Это неэффективно в условиях неопределенности и специфики открытых пространств. Целью данного исследования является разработка нового подхода к сенсорному захвату, который может работать в различных ситуациях и не требует предварительной подготовки к распознаванию конкретных предметов. ## Метод Предлагаемая система, OVGrasp (Open-Vocabulary Grasping Assistance), использует краткие текстовые подсказки – open-vocabulary prompts – и голосовые команды, чтобы взаимодействовать с объектами в реальном времени. Основой системы является подход, основанный на визуальном анализе RGB-D изображений и текстовых описаний, что позволяет использовать расширенную модель видения-языка (Vision-Language Foundation Model). Механизм распознавания неизвестных объектов в режиме zero-shot делает систему универсальной и без необходимости повторного обучения. Для определения желаемых действий (захват или отпускание), система использует многомодальный групповой алгоритм, который объединяет визуальные и языковые сигналы для точного определения поведенческой мотивации. Такой подход позволяет использовать OVGrasp в различных ситуациях, где требуется самостоятельность в работе с неизвестными предметами. ## Результаты Оценки OVGrasp проводились на 15 различных предметах, разделенных на три категории захвата: прямой захват, подхват с выше и подхват с низу. Использовались данные 10 участников с разными уровнями опыта взаимодействия с технологией. Основной метрикой стала Grasping Ability Score (GAS), отражающая степень успешности захвата. Оценка GAS составила 87.00%, что превышает результаты существующих алгоритмов. Также была замечена повышенная точность в движениях, что является ключевым преимуществом для создания более натуральных движений. Эти результаты показывают высокую эффективность OVGrasp в условиях повседневного использования. ## Значимость Разработанная система имеет широкие возможности применения в сфере медицины, помощи немоторным людям и робототехнике. Ос

Abstract

Grasping assistance is essential for restoring autonomy in individuals with motor impairments, particularly in unstructured environments where object categories and user intentions are diverse and unpredictable. We present OVGrasp, a hierarchical control framework for soft exoskeleton-based grasp assistance that integrates RGB-D vision, open-vocabulary prompts, and voice commands to enable robust multimodal interaction. To enhance generalization in open environments, OVGrasp incorporates a vision-language foundation model with an open-vocabulary mechanism, allowing zero-shot detection of previously unseen objects without retraining. A multimodal decision-maker further fuses spatial and linguistic cues to infer user intent, such as grasp or release, in multi-object scenarios. We deploy the complete framework on a custom egocentric-view wearable exoskeleton and conduct systematic evaluations on 15 objects across three grasp types. Experimental results with ten participants demonstrate that OVGrasp achieves a grasping ability score (GAS) of 87.00%, outperforming state-of-the-art baselines and achieving improved kinematic alignment with natural hand motion.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация