No Need for Real 3D: Fusing 2D Vision with Pseudo 3D Representations for Robotic Manipulation Learning

2509.16532v1 cs.RO, cs.AI 2025-09-25

Авторы:

Run Yu, Yangdi Liu, Wen-Da Wei, Chen Li

Резюме на русском

#### Контекст В последние годы видение-на-действие (vision-based robotic manipulation) стало одной из самых активных областей исследований в робототехнике. Оно открывает путь к улучшению интерактивности и управляемости роботов, позволяя им выполнять сложные задачи в реальном времени. Однако существуют значительные проблемы, связанные с наиболее распространенными подходами. Методы, основанные на 2D изображениях, хотя широко используются, часто страдают от ограниченной способности понимать 3D-пространство. Методы, основанные на 3D-представлениях (например, 3D-точечных массивов), значительно улучшают понимание пространства, но требуют высоких затрат на сбор и обработку 3D-данных, что существенно ограничивает их применение в реальном мире. Таким образом, необходимо разработать подход, который мог бы объединить преимущества визуального восприятия в 2D и 3D-информацию, однако без стоимостных затрат, связанных с последним. #### Метод Мы предлагаем фреймворк с названием NoReal3D, который объединяет в себе мощь визуального восприятия и синтетических 3D-представлений. На сердце этого фреймворка лежит 3DStructureFormer — модуль, преобразующий монокулярные изображения в многомерные псевдо-точечные массивы. Эти псевдо-точечные массивы сохраняют ключевые геометрические и топологические свойства точечных массивов, позволяя их использовать для более точного понимания пространства. Мы также разработали специальный псевдо-точечный массив-энкодер, который позволяет сохранять эти свойства во время обучения. Для обеспечения эффективной интеграции 2D и 3D-данных, мы исследовали различные стратегии фьюзинга фичей, чтобы улучшить общую точность и устойчивость модели. Наш подход позволяет избежать сложностей, связанных с сбором реальных 3D-данных, что делает его отличным вариантом для реального применения. #### Результаты Мы провести подробные эксперименты на различных задачах робототехники, включая п selecting , object placement, и object rearrangement. Для этого мы использовали широкий набор данных, включающий как синтетические, так и реальные 2D-изображения, а также синтетические 3D-точечные массивы. Наши результаты показали, что NoReal3D достигает той же, или даже вышей, эффективности, чем методы, основанные на 3D-точечных массивах, при этом не требуя сбора реальных данных 3D. Это указывает на высокую степень общей обучаемости и робастности нашего подхода. Также мы провели анализ различных стратегий фьюзинга, чтобы продемонстрировать, как они влияют на поведение системы. #### Значимость Наш подход имеет зна

Abstract

Recently,vision-based robotic manipulation has garnered significant attention and witnessed substantial advancements. 2D image-based and 3D point cloud-based policy learning represent two predominant paradigms in the field, with recent studies showing that the latter consistently outperforms the former in terms of both policy performance and generalization, thereby underscoring the value and significance of 3D information. However, 3D point cloud-based approaches face the significant challenge of high data acquisition costs, limiting their scalability and real-world deployment. To address this issue, we propose a novel framework NoReal3D: which introduces the 3DStructureFormer, a learnable 3D perception module capable of transforming monocular images into geometrically meaningful pseudo-point cloud features, effectively fused with the 2D encoder output features. Specially, the generated pseudo-point clouds retain geometric and topological structures so we design a pseudo-point cloud encoder to preserve these properties, making it well-suited for our framework. We also investigate the effectiveness of different feature fusion strategies.Our framework enhances the robot's understanding of 3D spatial structures while completely eliminating the substantial costs associated with 3D point cloud acquisition.Extensive experiments across various tasks validate that our framework can achieve performance comparable to 3D point cloud-based methods, without the actual point cloud data.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

No Need for Real 3D: Fusing 2D Vision with Pseudo 3D Representations for Robotic Manipulation Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация