Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance

2508.11093v1 cs.RO, cs.AI, cs.HC 2025-08-19

Авторы:

Cesar Alan Contreras, Manolis Chiou, Alireza Rastegarpanah, Michal Szulik, Rustam Stolkin

Резюме на русском

## Контекст В современной индустрии и жизни существуют возрастающие требования к быстрому и эффективному взаимодействию между людьми и роботами. Одним из ключевых аспектов этого взаимодействия является возможность робота быстро и точно определить намерения пользователя, предоставить прозрачную логику решения и оказать наиболее эффективную помощь. Однако на данный момент существуют значительные проблемы в этой области, включая недостаточную точность в решении задач и ограниченные возможности адаптации к изменению намерений пользователя. Данная работа направлена на развитие методов, которые позволят роботам не только быстро определять намерения, но и обеспечивать более точную и понятную помощь пользователям. ## Метод Для достижения поставленных целей в работе предлагается использовать сочетание существующей модели GUIDER для определения намерений с помощью визуально-языковых моделей (VLM) и текстовых языковых моделей (LLM). Методология включает в себя несколько ключевых этапов: 1. Использование визуального моделирования (YOLO и Segment Anything Model) для обнаружения объектов и их инстансного сегментирования. 2. Использование VLM для оценки релевантности обнаруженных объектов по отношению к заданной задаче. 3. Использование LLM для оценки релевантности объектов в текстовом виде. 4. Объединение результатов VLM и LLM для формирования вероятностного белка, который используется в GUIDER для динамического изменения намерений. 5. Автономное поведение робота, включая навигацию к объекту и его получение. ## Результаты Проведенные эксперименты показали, что сочетание VLM и LLM с GUIDER значительно повышает точность определения намерений пользователя. Использование визуальных моделей позволяет более точно определять объекты в реальном времени, тогда как текстовые модели обеспечивают дополнительную релевантность в текстовой области. Эти дополнения к GUIDER позволяют роботу быстрее адаптироваться к изменениям в намерениях пользователя и обеспечивают более точную помощь в выполнении задач. ## Значимость Разработанная система может быть применена в различных областях, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь в случае необходимости. Основное преимущество системы заключается в ее возможности быстро учитывать входные данные из разных источников и оптимизировать помощь на основе контекста. Это может привести к повышению производительности и улучшению качества взаимодействия с роботами. ## Выводы Результаты экспериментов показали, что использование VLM и LLM в сочетании с GUIDER значительно повышает точность определения намерений пользователя и улучшает общую эфф

Abstract

Human-robot collaboration requires robots to quickly infer user intent, provide transparent reasoning, and assist users in achieving their goals. Our recent work introduced GUIDER, our framework for inferring navigation and manipulation intents. We propose augmenting GUIDER with a vision-language model (VLM) and a text-only language model (LLM) to form a semantic prior that filters objects and locations based on the mission prompt. A vision pipeline (YOLO for object detection and the Segment Anything Model for instance segmentation) feeds candidate object crops into the VLM, which scores their relevance given an operator prompt; in addition, the list of detected object labels is ranked by a text-only LLM. These scores weight the existing navigation and manipulation layers of GUIDER, selecting context-relevant targets while suppressing unrelated objects. Once the combined belief exceeds a threshold, autonomy changes occur, enabling the robot to navigate to the desired area and retrieve the desired object, while adapting to any changes in the operator's intent. Future work will evaluate the system on Isaac Sim using a Franka Emika arm on a Ridgeback base, with a focus on real-time assistance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Supporting Productivity Skill Development in College Students through Social Rob...

Semantic Glitch: Agency and Artistry in an Autonomous Pixel Cloud

Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and V...

FieldGen: From Teleoperated Pre-Manipulation Trajectories to Field-Guided Data G...

Training Models to Detect Successive Robot Errors from Human Reactions

Навигация