MINT-RVAE: Multi-Cues Intention Prediction of Human-Robot Interaction using Human Pose and Emotion Information from RGB-only Camera Data
2509.22573v1
cs.RO, cs.CV
2025-09-30
Авторы:
Farida Mohsen, Ali Safa
Резюме на русском
## Контекст
Область исследования — создание моделей, позволяющих эффективно определять человеческие намерения в контексте Human-Robot Interaction (HRI). Эта задача важна для улучшения взаимодействия между роботами и людьми в различных сферах, включая здравоохранение, промышленность и домашние услуги. Существующие проблемы включают недостаточную точность и скорость распознавания намерений, особенно при использовании ограниченных визуальных данных. Мотивация заключается в развитии моделей, которые могут точно предсказывать намерения на основе RGB-данных, чтобы обеспечить быстрые и точные реакции роботов.
## Метод
Мы предлагаем MINT-RVAE — новую методологию, которая использует изображения RGB исключительно для предсказания намерений человека в целях HRI. Метод включает в себя MINT-RVAE, процедуру синтетической последовательностной генерации, а также новые функции потерь и стратегии обучения. Эти компоненты призваны улучшить общую точность модели, когда применяются данные, отличные от обучающей выборки. Архитектура опирается на современные сети рекуррентных нейронов и сверточных нейронных сетей, чтобы обрабатывать кадры RGB и обнаруживать положение человека, его эмоции и намерения в каждый отдельный кадр.
## Результаты
Мы проверили MINT-RVAE на реальных данных HRI, включающих в себя RGB-видео. Модель достигла AUROC 0.95, что значительно превосходит предыдущие результаты (AUROC 0.90–0.912). Она также показала точность в распознавании намерений на уровне кадров, что позволяет роботам реагировать быстрее. Мы также открыто распространили новый датасет с разметкой кадров, чтобы помочь дальнейшим исследованиям в этой сфере.
## Значимость
Модель MINT-RVAE применима в различных сферах, включая домашние роботы, автоматизированные системы услуг и промышленные роботы. Основные преимущества заключаются в точности, скорости и универсальности, поскольку она работает только с RGB-данными. Это может существенно упростить развертывание роботов и улучшить их взаимодействие с пользователями. Будущие исследования будут фокусироваться на улучшении модели для более сложных сценариев HRI и расширении ее возможностей.
## Выводы
MINT-RVAE представляет собой новую модель, в которой используется только RGB-данные для точного предсказания намерений в HRI. Ее выгодно отличают более высокая точность, быстрость реакции и универсальность. Мы открыто предоставили датасет, чтобы помочь дальнейшим исследованиям. Будущие направления исследований будут сконцентрированы на расширении модели для более сложных сценариев HRI и ее применении в реальных ситуациях.
Abstract
Efficiently detecting human intent to interact with ubiquitous robots is
crucial for effective human-robot interaction (HRI) and collaboration. Over the
past decade, deep learning has gained traction in this field, with most
existing approaches relying on multimodal inputs, such as RGB combined with
depth (RGB-D), to classify time-sequence windows of sensory data as interactive
or non-interactive. In contrast, we propose a novel RGB-only pipeline for
predicting human interaction intent with frame-level precision, enabling faster
robot responses and improved service quality. A key challenge in intent
prediction is the class imbalance inherent in real-world HRI datasets, which
can hinder the model's training and generalization. To address this, we
introduce MINT-RVAE, a synthetic sequence generation method, along with new
loss functions and training strategies that enhance generalization on
out-of-sample data. Our approach achieves state-of-the-art performance (AUROC:
0.95) outperforming prior works (AUROC: 0.90-0.912), while requiring only RGB
input and supporting precise frame onset prediction. Finally, to support future
research, we openly release our new dataset with frame-level labeling of human
interaction intent.
Ссылки и действия
Дополнительные ресурсы: