Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions
2508.16143v1
cs.RO, cs.AI
2025-08-26
Авторы:
Akira Oyama, Shoichi Hasegawa, Akira Taniguchi, Yoshinobu Hagiwara, Tadahiro Taniguchi
Резюме на русском
#### Контекст
В повседневной жизни поддерживающие роботы должны точно интерпретировать неясные указания, включающие демонстративные слова, такие как "Принеси мне этот стакан". Однако существующие модели сложности имеют при работе в реальных условиях, когда объект или пользователь не виден роботу. Это приводит к неэффективности и ошибкам в робототехнических системах. Недостаточность экзотерических фреймворков, опирающихся только на визуальные данные, требует разработки методов, которые могли бы обеспечивать точность в таких ситуациях. Мы предлагаем Multimodal Interactive Exophora Resolution with User Localization (MIEL) — рамфторму для решения задач exophora, которая включает в себя несколько модальностей и интерактивные вопросы для оптимизации решения.
#### Метод
Метод MIEL основывается на следующих компонентах:
1. **Semantic Mapping**: Робот строит семантическую карту окружения, что позволяет идентифицировать возможные объекты в зависимости от текстового запроса пользователя.
2. **Sound Source Localization (SSL)**: На основе звуковых сигналов робот определяет положение пользователя, даже если пользователь находится за его областью видимости.
3. **Visual-Language Models (VLMs)**: Инференсные модели, основанные на визуальных и текстовых данных, используются для распознавания объектов и знакомства с их свойствами.
4. **Interactive Questioning**: Если возникают дополнительные неоднозначности, робот активно интерактивно общается с пользователем, используя GPT-4o для формирования уточняющих вопросов.
Эта структура позволяет роботу эффективно использовать несколько источников информации, чтобы улучшить интерпретацию неясных указаний.
#### Результаты
Мы провели эксперименты в реальной среде, сравнивая MIEL с другими существующими системами. Результаты показали, что при видимости пользователя робот выполнял задачи примерно 1,3 раза эффективнее, чем другие методы. Особенно заметно было улучшение при невидимости пользователя — здесь MIEL превысил другие методы в два раза. Эти результаты подтверждают эффективность интерактивного подхода и использования SSL для улучшения точности разрешения exophora в сложных сценариях.
#### Значимость
Модель MIEL имеет широкие применения в различных сферах, в том числе в системах услуг, помощи в домашних условиях или в роботах для социального взаимодействия. Она предлагает значительные преимущества, такие как увеличение точности и надежности в условиях неполной видимости, что может увеличить удобство использования роботов в реальном мире. Наш подход может сильно повлиять на развитие робототехники, обеспечивая более эффективное взаимодействие с пользователем.
#### Выводы
В результате нашего ис
Abstract
Daily life support robots must interpret ambiguous verbal instructions
involving demonstratives such as ``Bring me that cup,'' even when objects or
users are out of the robot's view. Existing approaches to exophora resolution
primarily rely on visual data and thus fail in real-world scenarios where the
object or user is not visible. We propose Multimodal Interactive Exophora
resolution with user Localization (MIEL), which is a multimodal exophora
resolution framework leveraging sound source localization (SSL), semantic
mapping, visual-language models (VLMs), and interactive questioning with
GPT-4o. Our approach first constructs a semantic map of the environment and
estimates candidate objects from a linguistic query with the user's skeletal
data. SSL is utilized to orient the robot toward users who are initially
outside its visual field, enabling accurate identification of user gestures and
pointing directions. When ambiguities remain, the robot proactively interacts
with the user, employing GPT-4o to formulate clarifying questions. Experiments
in a real-world environment showed results that were approximately 1.3 times
better when the user was visible to the robot and 2.0 times better when the
user was not visible to the robot, compared to the methods without SSL and
interactive questioning. The project website is
https://emergentsystemlabstudent.github.io/MIEL/.
Ссылки и действия
Дополнительные ресурсы: