Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance
2508.11093v1
cs.RO, cs.AI, cs.HC
2025-08-19
Авторы:
Cesar Alan Contreras, Manolis Chiou, Alireza Rastegarpanah, Michal Szulik, Rustam Stolkin
Резюме на русском
## Контекст
В современной индустрии и жизни существуют возрастающие требования к быстрому и эффективному взаимодействию между людьми и роботами. Одним из ключевых аспектов этого взаимодействия является возможность робота быстро и точно определить намерения пользователя, предоставить прозрачную логику решения и оказать наиболее эффективную помощь. Однако на данный момент существуют значительные проблемы в этой области, включая недостаточную точность в решении задач и ограниченные возможности адаптации к изменению намерений пользователя. Данная работа направлена на развитие методов, которые позволят роботам не только быстро определять намерения, но и обеспечивать более точную и понятную помощь пользователям.
## Метод
Для достижения поставленных целей в работе предлагается использовать сочетание существующей модели GUIDER для определения намерений с помощью визуально-языковых моделей (VLM) и текстовых языковых моделей (LLM). Методология включает в себя несколько ключевых этапов:
1. Использование визуального моделирования (YOLO и Segment Anything Model) для обнаружения объектов и их инстансного сегментирования.
2. Использование VLM для оценки релевантности обнаруженных объектов по отношению к заданной задаче.
3. Использование LLM для оценки релевантности объектов в текстовом виде.
4. Объединение результатов VLM и LLM для формирования вероятностного белка, который используется в GUIDER для динамического изменения намерений.
5. Автономное поведение робота, включая навигацию к объекту и его получение.
## Результаты
Проведенные эксперименты показали, что сочетание VLM и LLM с GUIDER значительно повышает точность определения намерений пользователя. Использование визуальных моделей позволяет более точно определять объекты в реальном времени, тогда как текстовые модели обеспечивают дополнительную релевантность в текстовой области. Эти дополнения к GUIDER позволяют роботу быстрее адаптироваться к изменениям в намерениях пользователя и обеспечивают более точную помощь в выполнении задач.
## Значимость
Разработанная система может быть применена в различных областях, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь в случае необходимости. Основное преимущество системы заключается в ее возможности быстро учитывать входные данные из разных источников и оптимизировать помощь на основе контекста. Это может привести к повышению производительности и улучшению качества взаимодействия с роботами.
## Выводы
Результаты экспериментов показали, что использование VLM и LLM в сочетании с GUIDER значительно повышает точность определения намерений пользователя и улучшает общую эфф
Abstract
Human-robot collaboration requires robots to quickly infer user intent,
provide transparent reasoning, and assist users in achieving their goals. Our
recent work introduced GUIDER, our framework for inferring navigation and
manipulation intents. We propose augmenting GUIDER with a vision-language model
(VLM) and a text-only language model (LLM) to form a semantic prior that
filters objects and locations based on the mission prompt. A vision pipeline
(YOLO for object detection and the Segment Anything Model for instance
segmentation) feeds candidate object crops into the VLM, which scores their
relevance given an operator prompt; in addition, the list of detected object
labels is ranked by a text-only LLM. These scores weight the existing
navigation and manipulation layers of GUIDER, selecting context-relevant
targets while suppressing unrelated objects. Once the combined belief exceeds a
threshold, autonomy changes occur, enabling the robot to navigate to the
desired area and retrieve the desired object, while adapting to any changes in
the operator's intent. Future work will evaluate the system on Isaac Sim using
a Franka Emika arm on a Ridgeback base, with a focus on real-time assistance.
Ссылки и действия
Дополнительные ресурсы: