Object Pose Estimation through Dexterous Touch

2509.13591v1 cs.RO, cs.CV 2025-09-19

Авторы:

Amir-Hossein Shahidzadeh, Jiyue Zhu, Kezhou Chen, Sha Yi, Cornelia Fermüller, Yiannis Aloimonos, Xiaolong Wang

Резюме на русском

## Контекст Распознавание позы объектов является ключевым элементом для выполнения манипуляций и взаимодействий в робототехнике, особенно в условиях недостатка визуальной информации или при наличии факторов, способствующих ошибкам определения, таких как световые условия, помехи или изменения внешнего вида объектов. Тактильные сенсоры, несмотря на свою точность в локальном сенсорном восприятии, часто не могут обеспечить полное восприятие объекта из-за ограниченности их данных. Данная работа адресует эти проблемы, используя сенсорно-моторное исследование, которое активно контролирует движения руки робота для взаимодействия с объектом. Такая подход позволяет сформировать трехмерные данные, используемые для точного построения модели объекта и определения его позы. ## Метод Методология основывается на использовании многоруких роботов, где одна рука стабилизирует объект, а другая производит активное исследование. Тактильные данные, собираемые в процессе, обрабатываются с помощью методов машинного обучения, в том числе Реинфорсментного Обучения (RL). Это позволяет роботу выявлять ключевые особенности позы объекта и улучшать свою модель в течение взаимодействия. Архитектура метода включает в себя интеграцию трехмерных точек, собранных сенсорами, с глубоким обучением для построения точной модели и определения позы. ## Результаты Эксперименты проводились на широком спектре объектов, в том числе сложных форм и нестандартных конфигураций. Метод показал высокую точность в определении позы в условиях существующих помех и изменений внешнего вида. Использование трёхмерных точек, полученных в результате сенсорного исследования, позволяет обеспечить высокую точность и устойчивость в определении координат. Эта модель демонстрирует способность активно изучать неизвестные объекты, оптимизировав свой подход в процессе взаимодействия. ## Значимость Предложенный подход может быть применен в различных областях, включая автоматизированные системы сборки, робототехнические системы для домашних целей и медицинские приложения. Основные преимущества заключаются в том, что данный подход не требует предварительного знания объекта, обладает высокой устойчивостью к изменениям окружения и может адаптироваться к новым задачам. Потенциально, он может существенно улучшить точность и надежность роботов в различных интерактивных сценариях. ## Выводы Результаты демонстрируют эффективность метода в распознавании позы объекта с использованием тактильных данных и многоручного взаимодействия. Будущие исследования будут сфокализованы

Abstract

Robust object pose estimation is essential for manipulation and interaction tasks in robotics, particularly in scenarios where visual data is limited or sensitive to lighting, occlusions, and appearances. Tactile sensors often offer limited and local contact information, making it challenging to reconstruct the pose from partial data. Our approach uses sensorimotor exploration to actively control a robot hand to interact with the object. We train with Reinforcement Learning (RL) to explore and collect tactile data. The collected 3D point clouds are used to iteratively refine the object's shape and pose. In our setup, one hand holds the object steady while the other performs active exploration. We show that our method can actively explore an object's surface to identify critical pose features without prior knowledge of the object's geometry. Supplementary material and more demonstrations will be provided at https://amirshahid.github.io/BimanualTactilePose .

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Object Pose Estimation through Dexterous Touch

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация