Toward Human-Robot Teaming: Learning Handover Behaviors from 3D Scenes

2508.09855v1 cs.RO, cs.CV, cs.HC 2025-08-15
Авторы:

Yuekun Wu, Yik Lung Pang, Andrea Cavallaro, Changjae Oh

Резюме на русском

#### Контекст Human-robot teaming (HRT) представляет собой взаимодействие между роботами и людьми, в основном для выполнения задач в условиях близкого соприкосновения. Одна из самых важных задач в данной области — human-to-robot handover (передача предметов роботу человеком). Эта задача требует точности и надежности в поведении робота, чтобы избежать коллизий и обеспечить безопасность во время передачи. Однако, создание эффективных моделей поведения робота для такой задачи требует больших объемов данных и проведения многочисленных робото-демонстраций. Это вызывает проблему коллекции данных в реальном мире и ограничения в симуляторах из-за различий визуального пространства. Нашим целью является развитие метода, позволяющего обучать роботу для handover-задач из сырых данных, при этом исключая необходимость физической демонстрации в реальном мире. #### Метод Мы предлагаем метод обучения HRT-политик, основанный на генерации демонстрационных данных с использованием Gaussian Splatting. Мы используем RGB-камеру, установленную на роботской хватке, для получения изображений в реальном времени. Затем, мы используем метод Gaussian Splatting для реконструкции сцены, в которой робот получает предмет с человека. Этот подход позволяет генерировать данные визуального положения робота в пространстве, не используя физический симулятор. После этого мы обучаем модель распознавания действий на основе этих данных. Метод также использует детальную архитектуру для обеспечения точности и надежности в процессе обучения. #### Результаты Мы проводим эксперименты для оценки нашего метода в двух средах: сценах, полученных с помощью Gaussian Splatting, и реальном мире. Для обучения используются RGB-данные, полученные с камеры-хватки, и в реальном мире мы проводим тестирование на живых людях. Наши результаты показывают, что наш подход позволяет роботу научиться правильно получать предметы в реальных условиях, избегая коллизий и обеспечивая стабильность хватки. Это демонстрирует эффективность нашей модели в условиях близкого соприкосновения и подтверждает ее пригодность для реального применения в HRT. #### Значимость Метод, предложенный в нашей работе, имеет широкие приложения в сфере HRT, особенно в задачах, требующих близкого сотрудничества между роботом и человеком. Он предоставляет способ обучения роботов без необходимости ручных демонстраций в реальном мире, что существенно уменьшает затраты на обучение. Это особенно важно в ситуациях, когда доступ к реальному роботу ограничен. Благодаря нашей модели, роботы могут быть обучены быстрее и эффективнее, что имеет потенциал для улучшения производительности в различных

Abstract

Human-robot teaming (HRT) systems often rely on large-scale datasets of human and robot interactions, especially for close-proximity collaboration tasks such as human-robot handovers. Learning robot manipulation policies from raw, real-world image data requires a large number of robot-action trials in the physical environment. Although simulation training offers a cost-effective alternative, the visual domain gap between simulation and robot workspace remains a major limitation. We introduce a method for training HRT policies, focusing on human-to-robot handovers, solely from RGB images without the need for real-robot training or real-robot data collection. The goal is to enable the robot to reliably receive objects from a human with stable grasping while avoiding collisions with the human hand. The proposed policy learner leverages sparse-view Gaussian Splatting reconstruction of human-to-robot handover scenes to generate robot demonstrations containing image-action pairs captured with a camera mounted on the robot gripper. As a result, the simulated camera pose changes in the reconstructed scene can be directly translated into gripper pose changes. Experiments in both Gaussian Splatting reconstructed scene and real-world human-to-robot handover experiments demonstrate that our method serves as a new and effective representation for the human-to-robot handover task, contributing to more seamless and robust HRT.

Ссылки и действия

Связанные статьи

Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasonin...

## Контекст В последние годы наблюдается стремительное развитие робототехники и искусственного интеллекта, которое откр...

2025-09-26