Pointing-Guided Target Estimation via Transformer-Based Attention

2509.05031v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.6 2025-09-09
Авторы:

Luca Müller, Hassan Ali, Philipp Allgeuer, Lukáš Gajdošech, Stefan Wermter

Резюме на русском

#### Контекст Направленные (деиктические) жесты, такие как указательный палец, являются основной формой невербального общения, позволяющей людям указывать на конкретные объекты или места. В контексте Human-Robot Interaction (HRI) становится критически важной способность роботов предсказывать человеческие намерения и реагировать соответствующим образом. Однако, в существующих моделях часто отсутствуют модули, объединяющие в себе визуальные и жестовые сигналы, что приводит к неточностям в определении целей. Мы предлагаем архитектуру Multi-Modality Inter-TransFormer (MM-ITF), которая использует модальности визуальных и жестовых сигналов для точного предсказания объектов на столе в сценарии с NICOL-роботом. #### Метод Модель MM-ITF основана на трансформерной архитектуре и использует входные данные в виде RGB-видео и жестов указателя. Она предназначена для моделирования взаимодействия человека с роботом на основе модулярной архитектуры. Основным механизмом является интер-модальное внимание (inter-modality attention), которое позволяет объединять сигналы с разных модальностей. Данная модель учитывает визуальные и жестовые сигналы, анализируя их взаимодействие и объединяя в себе информацию для более точного предсказания объекта. Кроме того, мы представили метрику - "patch confusion matrix" - для оценки точности предсказания модели на кандидатских областях. #### Результаты Мы проводили эксперименты в управляемой среде с NICOL-роботом, где люди использовали естественные жесты для указания объектов на столе. Модель MM-ITF, обученная на этих данных, показала высокую точность в предсказании преднамеренных объектов. Мы использовали 2D RGB-данные для определения целей, и модель успешно интерпретировала жесты, присваивая каждому кандидату вероятность. Результаты показали, что модель MM-ITF может точно идентифицировать целевые объекты, даже при неоднозначных условиях. Также мы продемонстрировали точность нашей метрики "patch confusion matrix", позволяющей понять, на каких областях модель делает правильные и ошибочные предсказания. #### Значимость Модель MM-ITF может быть применена в различных сценариях Human-Robot Interaction, где необходимо точно определять целевые объекты на основе жестов. Он предоставляет большую точность и надежность в предсказании целей, что может улучшить интерактивность и удобство взаимодействия. Кроме того, использование только 2D RGB-данных делает модель доступной и эффективной для задач в сложных средах. Наша работа также открывает пути для будущих исследований в области моделирования деиктических жестов и их интеграции с трансформерными моделями. #### Выво

Abstract

Deictic gestures, like pointing, are a fundamental form of non-verbal communication, enabling humans to direct attention to specific objects or locations. This capability is essential in Human-Robot Interaction (HRI), where robots should be able to predict human intent and anticipate appropriate responses. In this work, we propose the Multi-Modality Inter-TransFormer (MM-ITF), a modular architecture to predict objects in a controlled tabletop scenario with the NICOL robot, where humans indicate targets through natural pointing gestures. Leveraging inter-modality attention, MM-ITF maps 2D pointing gestures to object locations, assigns a likelihood score to each, and identifies the most likely target. Our results demonstrate that the method can accurately predict the intended object using monocular RGB data, thus enabling intuitive and accessible human-robot collaboration. To evaluate the performance, we introduce a patch confusion matrix, providing insights into the model's predictions across candidate object locations. Code available at: https://github.com/lucamuellercode/MMITF.

Ссылки и действия