📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Pointing-Guided Target Estimation via Transformer-Based Attention

2025-09-09

Авторы:

Luca Müller, Hassan Ali, Philipp Allgeuer, Lukáš Gajdošech, Stefan Wermter

#### Контекст Направленные (деиктические) жесты, такие как указательный палец, являются основной формой невербального общения, позволяющей людям указывать на конкретные объекты или места. В контексте Human-Robot Interaction (HRI) становится критически важной способность роботов предсказывать человеческие намерения и реагировать соответствующим образом. Однако, в существующих моделях часто отсутствуют модули, объединяющие в себе визуальные и жестовые сигналы, что приводит к неточностям в определении целей. Мы предлагаем архитектуру Multi-Modality Inter-TransFormer (MM-ITF), которая использует модальности визуальных и жестовых сигналов для точного предсказания объектов на столе в сценарии с NICOL-роботом. #### Метод Модель MM-ITF основана на трансформерной архитектуре и использует входные данные в виде RGB-видео и жестов указателя. Она предназначена для моделирования взаимодействия человека с роботом на основе модулярной архитектуры. Основным механизмом является интер-модальное внимание (inter-modality attention), которое позволяет объединять сигналы с разных модальностей. Данная модель учитывает визуальные и жестовые сигналы, анализируя их взаимодействие и объединяя в себе информацию для более точного предсказания объекта. Кроме того, мы представили метрику - "patch confusion matrix" - для оценки точности предсказания модели на кандидатских областях. #### Результаты Мы проводили эксперименты в управляемой среде с NICOL-роботом, где люди использовали естественные жесты для указания объектов на столе. Модель MM-ITF, обученная на этих данных, показала высокую точность в предсказании преднамеренных объектов. Мы использовали 2D RGB-данные для определения целей, и модель успешно интерпретировала жесты, присваивая каждому кандидату вероятность. Результаты показали, что модель MM-ITF может точно идентифицировать целевые объекты, даже при неоднозначных условиях. Также мы продемонстрировали точность нашей метрики "patch confusion matrix", позволяющей понять, на каких областях модель делает правильные и ошибочные предсказания. #### Значимость Модель MM-ITF может быть применена в различных сценариях Human-Robot Interaction, где необходимо точно определять целевые объекты на основе жестов. Он предоставляет большую точность и надежность в предсказании целей, что может улучшить интерактивность и удобство взаимодействия. Кроме того, использование только 2D RGB-данных делает модель доступной и эффективной для задач в сложных средах. Наша работа также открывает пути для будущих исследований в области моделирования деиктических жестов и их интеграции с трансформерными моделями. #### Выво

Annotation:

Deictic gestures, like pointing, are a fundamental form of non-verbal communication, enabling humans to direct attention to specific objects or locations. This capability is essential in Human-Robot Interaction (HRI), where robots should be able to predict human intent and anticipate appropriate responses. In this work, we propose the Multi-Modality Inter-TransFormer (MM-ITF), a modular architecture to predict objects in a controlled tabletop scenario with the NICOL robot, where humans indicate ...

ID: 2509.05031v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.6

arXiv PDF