Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions

2508.16143v1 cs.RO, cs.AI 2025-08-26

Авторы:

Akira Oyama, Shoichi Hasegawa, Akira Taniguchi, Yoshinobu Hagiwara, Tadahiro Taniguchi

Резюме на русском

#### Контекст В повседневной жизни поддерживающие роботы должны точно интерпретировать неясные указания, включающие демонстративные слова, такие как "Принеси мне этот стакан". Однако существующие модели сложности имеют при работе в реальных условиях, когда объект или пользователь не виден роботу. Это приводит к неэффективности и ошибкам в робототехнических системах. Недостаточность экзотерических фреймворков, опирающихся только на визуальные данные, требует разработки методов, которые могли бы обеспечивать точность в таких ситуациях. Мы предлагаем Multimodal Interactive Exophora Resolution with User Localization (MIEL) — рамфторму для решения задач exophora, которая включает в себя несколько модальностей и интерактивные вопросы для оптимизации решения. #### Метод Метод MIEL основывается на следующих компонентах: 1. **Semantic Mapping**: Робот строит семантическую карту окружения, что позволяет идентифицировать возможные объекты в зависимости от текстового запроса пользователя. 2. **Sound Source Localization (SSL)**: На основе звуковых сигналов робот определяет положение пользователя, даже если пользователь находится за его областью видимости. 3. **Visual-Language Models (VLMs)**: Инференсные модели, основанные на визуальных и текстовых данных, используются для распознавания объектов и знакомства с их свойствами. 4. **Interactive Questioning**: Если возникают дополнительные неоднозначности, робот активно интерактивно общается с пользователем, используя GPT-4o для формирования уточняющих вопросов. Эта структура позволяет роботу эффективно использовать несколько источников информации, чтобы улучшить интерпретацию неясных указаний. #### Результаты Мы провели эксперименты в реальной среде, сравнивая MIEL с другими существующими системами. Результаты показали, что при видимости пользователя робот выполнял задачи примерно 1,3 раза эффективнее, чем другие методы. Особенно заметно было улучшение при невидимости пользователя — здесь MIEL превысил другие методы в два раза. Эти результаты подтверждают эффективность интерактивного подхода и использования SSL для улучшения точности разрешения exophora в сложных сценариях. #### Значимость Модель MIEL имеет широкие применения в различных сферах, в том числе в системах услуг, помощи в домашних условиях или в роботах для социального взаимодействия. Она предлагает значительные преимущества, такие как увеличение точности и надежности в условиях неполной видимости, что может увеличить удобство использования роботов в реальном мире. Наш подход может сильно повлиять на развитие робототехники, обеспечивая более эффективное взаимодействие с пользователем. #### Выводы В результате нашего ис

Abstract

Daily life support robots must interpret ambiguous verbal instructions involving demonstratives such as ``Bring me that cup,'' even when objects or users are out of the robot's view. Existing approaches to exophora resolution primarily rely on visual data and thus fail in real-world scenarios where the object or user is not visible. We propose Multimodal Interactive Exophora resolution with user Localization (MIEL), which is a multimodal exophora resolution framework leveraging sound source localization (SSL), semantic mapping, visual-language models (VLMs), and interactive questioning with GPT-4o. Our approach first constructs a semantic map of the environment and estimates candidate objects from a linguistic query with the user's skeletal data. SSL is utilized to orient the robot toward users who are initially outside its visual field, enabling accurate identification of user gestures and pointing directions. When ambiguities remain, the robot proactively interacts with the user, employing GPT-4o to formulate clarifying questions. Experiments in a real-world environment showed results that were approximately 1.3 times better when the user was visible to the robot and 2.0 times better when the user was not visible to the robot, compared to the methods without SSL and interactive questioning. The project website is https://emergentsystemlabstudent.github.io/MIEL/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация