GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation

2509.15733v1 cs.RO, cs.AI 2025-09-23
Авторы:

Quanhao Qian, Guoyang Zhao, Gongjie Zhang, Jiuniu Wang, Ran Xu, Junlong Gao, Deli Zhao

Резюме на русском

## Контекст Научное исследование GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation фокусируется на развитии системы управления роботами, основанной на геометрии. Одной из основных проблем в робототехнике является точное понимание трёхмерной сцены, что необходимо для эффективного манипулирования объектами. Существующие решения часто полагаются на данные с динамическими сенсорами, таких как LiDAR или RGB-D камеры, которые могут быть дорогими и требовательными к ресурсам. В этой работе предлагается альтернатива, основывающаяся на обработке многопрозрачных изображений, чтобы извлечь геометрическую информацию для роботов. Это позволяет развивать более сложные и точные системы управления, которые могут быть использованы в разных сценариях. ## Метод GP3 (Geometry-aware Policy with 3D Perception) предлагает новую архитектуру, которая использует многопрозрачные изображения для построения геометрического представления сцены. Эта модель включает в себя специальный вид "спектрального кодирования", который позволяет выделять детальные 3D фичи из RGB-изображений. Затем эти геометрические данные объединяются с текстовыми инструкциями в виде естественного языка, чтобы получить контрольные сигналы. Для перевода этих сигналов в действия используется легковесная политическая сеть. Изменения происходят в реальном времени, и модель может учитывать не только геометрию, но и естественный язык. Эта гибкая архитектура работает как в симуляционной среде, так и на реальных роботах, не требуя дополнительных сенсоров. ## Результаты В ходе экспериментов GP3 была протестирована на различных симуляторных бенчмарках, таких как Amazon Robotics Challenge и RLBench. Модель показала высокую точность в распознавании объектов и выполнения заданий, заметно превосходя существующие методы. Также были проведены тесты на реальных роботах, где GP3 удалось успешно выполнять задачи без глубоких сенсоров, таких как LiDAR или RGB-D камеры. Это подтверждает гибкость и эффективность GP3 как практического решения для геометрически основанного управления роботами. ## Значимость Модель GP3 может быть применена в различных сферах, в том числе домашней робототехнике, производственной автоматизации и управлении роботами в различных средах. Одним из преимуществ является то, что GP3 не требует дорогих сенсоров, что снижает стоимость реализации. Благодаря своей многопрозрачной архитектуре, модель также может быть применена в сложных средах с множеством объектов. В будущем модель может быть расширена для использования в более сложных сценариях, таких как взаимодействие с людьми и управление в условиях неопределён

Abstract

Effective robotic manipulation relies on a precise understanding of 3D scene geometry, and one of the most straightforward ways to acquire such geometry is through multi-view observations. Motivated by this, we present GP3 -- a 3D geometry-aware robotic manipulation policy that leverages multi-view input. GP3 employs a spatial encoder to infer dense spatial features from RGB observations, which enable the estimation of depth and camera parameters, leading to a compact yet expressive 3D scene representation tailored for manipulation. This representation is fused with language instructions and translated into continuous actions via a lightweight policy head. Comprehensive experiments demonstrate that GP3 consistently outperforms state-of-the-art methods on simulated benchmarks. Furthermore, GP3 transfers effectively to real-world robots without depth sensors or pre-mapped environments, requiring only minimal fine-tuning. These results highlight GP3 as a practical, sensor-agnostic solution for geometry-aware robotic manipulation.

Ссылки и действия