Toward Ownership Understanding of Objects: Active Question Generation with Large Language Model and Probabilistic Generative Model

2509.12754v1 cs.RO, cs.AI, cs.HC, cs.LG 2025-09-18
Авторы:

Saki Hashimoto, Shoichi Hasegawa, Tomochika Ishikawa, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Tadahiro Taniguchi

Резюме на русском

## Контекст Успешное взаимодействие роботов с человеком в домашних и офисных пространствах требует понимания владения предметами, чтобы выполнять команды, такие как "Принесите мне свою чашку". Однако определение владельца предмета только на основе визуальных признаков оказывается недостаточно надежным. Для решения этой проблемы предлагается новый подход, который объединяет активное получение знаний и использование глубоких языковых моделей. Целью данного исследования является создание фреймворка, позволяющего роботам активно формировать и задавать вопросы, связанные с владением, для эффективного получения необходимой информации. ## Метод Разработанный фреймворк, названный Active Ownership Learning (ActOwL), объединяет две основные компоненты: генеративную модель для выбора наиболее подходящих вопросов и технологии больших языковых моделей для проверки коммуникативности этих вопросов. ActOwL начинает с классификации предметов как общих (не принадлежащих конкретному человеку) или владением конкретного пользователя. Затем, используя модель вероятностной генерации, выбираются вопросы, которые максимизируют информационный потенциал для определения владельца. Эта стратегия обеспечивает эффективное получение знаний об отношениях владения, уменьшая количество необходимых вопросов. ## Результаты Исследования проводились в симуляционной двухкомнатной квартире и на реальных экспериментальных установках. ActOwL показал значительное преимущество по времени и точности в сравнении с базовыми методами. Например, для определения владельца всех предметов в окружении робот требовалось меньше запросов, что демонстрирует эффективность и практическую значимость подхода. Особое внимание уделено тому, что ActOwL способен адаптироваться к различным средам и пользователям, увеличивая производительность и социальное приемлемость. ## Значимость Результаты ActOwL открывают пути для применения в различных сферах, включая удобные домашние ассистенты и системы управления офисными пространствами. Фреймворк позволяет роботам не только более точно выполнять задачи, но и создавать более естественные взаимоотношения с пользователями. Благодаря интеграции глубоких моделей и активного обучения, ActOwL показывает возможность решения социально значимых задач, связанных с пониманием владения и структурированием пространства. ## Выводы Данное исследование подтверждает эффективность стратегии активного запроса информации в сфере определения владения предметами. Оно показывает, что роботы, использующие ActOwL, могут быстрее и точнее получать необходимые знания.

Abstract

Robots operating in domestic and office environments must understand object ownership to correctly execute instructions such as ``Bring me my cup.'' However, ownership cannot be reliably inferred from visual features alone. To address this gap, we propose Active Ownership Learning (ActOwL), a framework that enables robots to actively generate and ask ownership-related questions to users. ActOwL employs a probabilistic generative model to select questions that maximize information gain, thereby acquiring ownership knowledge efficiently to improve learning efficiency. Additionally, by leveraging commonsense knowledge from Large Language Models (LLM), objects are pre-classified as either shared or owned, and only owned objects are targeted for questioning. Through experiments in a simulated home environment and a real-world laboratory setting, ActOwL achieved significantly higher ownership clustering accuracy with fewer questions than baseline methods. These findings demonstrate the effectiveness of combining active inference with LLM-guided commonsense reasoning, advancing the capability of robots to acquire ownership knowledge for practical and socially appropriate task execution.

Ссылки и действия