Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots
2509.02530v1
cs.RO, cs.AI, cs.CV
2025-09-05
Авторы:
Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang
Резюме на русском
## Контекст
Робототехника, особенно манипуляции, широко используется в сферах, где требуется автоматизация задач сложного характера. Однако, нынешние роботы, оперирующие в основном в 2D-пространстве, сталкиваются с ограниченной точностью и недостаточной универсальностью в решении задач. Одной из ключевых проблем является то, что роботы, в отличие от человека, не в состоянии эффективно использовать геометрическую информацию в 3D-пространстве. Хотя такая информация доступна с помощью датчиков глубины, существуют технические и системные ограничения, которые затрудняют использование этих данных в реальном мире. Эти ограничения становятся причиной снижения надёжности и универсальности роботов в решении задач манипуляций.
## Метод
В нашей работе мы предлагаем **Camera Depth Models (CDMs)**, которые используются в качестве простого плагина для существующих датчиков глубины. Эти модели принимают на вход RGB-изображение и сигналы глубины, а на выходе дают данные, корректированные от шумов и точными в метрической габаритной системе. Чтобы обучить эти модели, мы разрабатываем моделирование симуляции, которое эмулирует шум и прочие особенности работы датчиков глубины. Эта методика позволяет CDMs эффективно корректировать данные в реальном времени, выполняя детальный анализ геометрии объектов.
## Результаты
Мы провели исследования, используя различные датчики глубины и наборы данных. Наши результаты показали, что CDMs позволяют осуществлять точное определение геометрии в реальном мире, близкое к точности симуляционных моделей. Мы провели эксперименты на двух сложных задачах манипуляций с объектами разных типов (артикулированные, отражающие и тонкие). Результаты показали, что политики, обученные на симуляционных данных с CDMs, могут безусловно переходить в реальный мир, сохраняя свою эффективность и точность. Это продемонстрировано на двух разных сценариях использования.
## Значимость
Наши результаты имеют большое значение в сферах робототехники, виртуальной реальности и перспективных технологий. Мы показали, что использование 3D-информации может дать существенный прирост в универсальности и решении задач. CDMs могут быть широко применены для устранения проблем проникновения в мир реальных задач с помощью симуляционных моделей. Этот подход может развиваться в дальнейшем для улучшения роботов в сферах, где требуется высокая точность и общеизмерительная габаритная позиция.
## Выводы
Наши исследования демонстрируют, что CDMs эффективно избавляются от шумов в данных глубины и позволяют ос
Abstract
Modern robotic manipulation primarily relies on visual observations in a 2D
color space for skill learning but suffers from poor generalization. In
contrast, humans, living in a 3D world, depend more on physical properties-such
as distance, size, and shape-than on texture when interacting with objects.
Since such 3D geometric information can be acquired from widely available depth
cameras, it appears feasible to endow robots with similar perceptual
capabilities. Our pilot study found that using depth cameras for manipulation
is challenging, primarily due to their limited accuracy and susceptibility to
various types of noise. In this work, we propose Camera Depth Models (CDMs) as
a simple plugin on daily-use depth cameras, which take RGB images and raw depth
signals as input and output denoised, accurate metric depth. To achieve this,
we develop a neural data engine that generates high-quality paired data from
simulation by modeling a depth camera's noise pattern. Our results show that
CDMs achieve nearly simulation-level accuracy in depth prediction, effectively
bridging the sim-to-real gap for manipulation tasks. Notably, our experiments
demonstrate, for the first time, that a policy trained on raw simulated depth,
without the need for adding noise or real-world fine-tuning, generalizes
seamlessly to real-world robots on two challenging long-horizon tasks involving
articulated, reflective, and slender objects, with little to no performance
degradation. We hope our findings will inspire future research in utilizing
simulation data and 3D information in general robot policies.
Ссылки и действия
Дополнительные ресурсы: