GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation
2509.15733v1
cs.RO, cs.AI
2025-09-23
Авторы:
Quanhao Qian, Guoyang Zhao, Gongjie Zhang, Jiuniu Wang, Ran Xu, Junlong Gao, Deli Zhao
Резюме на русском
## Контекст
Научное исследование GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation фокусируется на развитии системы управления роботами, основанной на геометрии. Одной из основных проблем в робототехнике является точное понимание трёхмерной сцены, что необходимо для эффективного манипулирования объектами. Существующие решения часто полагаются на данные с динамическими сенсорами, таких как LiDAR или RGB-D камеры, которые могут быть дорогими и требовательными к ресурсам. В этой работе предлагается альтернатива, основывающаяся на обработке многопрозрачных изображений, чтобы извлечь геометрическую информацию для роботов. Это позволяет развивать более сложные и точные системы управления, которые могут быть использованы в разных сценариях.
## Метод
GP3 (Geometry-aware Policy with 3D Perception) предлагает новую архитектуру, которая использует многопрозрачные изображения для построения геометрического представления сцены. Эта модель включает в себя специальный вид "спектрального кодирования", который позволяет выделять детальные 3D фичи из RGB-изображений. Затем эти геометрические данные объединяются с текстовыми инструкциями в виде естественного языка, чтобы получить контрольные сигналы. Для перевода этих сигналов в действия используется легковесная политическая сеть. Изменения происходят в реальном времени, и модель может учитывать не только геометрию, но и естественный язык. Эта гибкая архитектура работает как в симуляционной среде, так и на реальных роботах, не требуя дополнительных сенсоров.
## Результаты
В ходе экспериментов GP3 была протестирована на различных симуляторных бенчмарках, таких как Amazon Robotics Challenge и RLBench. Модель показала высокую точность в распознавании объектов и выполнения заданий, заметно превосходя существующие методы. Также были проведены тесты на реальных роботах, где GP3 удалось успешно выполнять задачи без глубоких сенсоров, таких как LiDAR или RGB-D камеры. Это подтверждает гибкость и эффективность GP3 как практического решения для геометрически основанного управления роботами.
## Значимость
Модель GP3 может быть применена в различных сферах, в том числе домашней робототехнике, производственной автоматизации и управлении роботами в различных средах. Одним из преимуществ является то, что GP3 не требует дорогих сенсоров, что снижает стоимость реализации. Благодаря своей многопрозрачной архитектуре, модель также может быть применена в сложных средах с множеством объектов. В будущем модель может быть расширена для использования в более сложных сценариях, таких как взаимодействие с людьми и управление в условиях неопределён
Abstract
Effective robotic manipulation relies on a precise understanding of 3D scene
geometry, and one of the most straightforward ways to acquire such geometry is
through multi-view observations. Motivated by this, we present GP3 -- a 3D
geometry-aware robotic manipulation policy that leverages multi-view input. GP3
employs a spatial encoder to infer dense spatial features from RGB
observations, which enable the estimation of depth and camera parameters,
leading to a compact yet expressive 3D scene representation tailored for
manipulation. This representation is fused with language instructions and
translated into continuous actions via a lightweight policy head. Comprehensive
experiments demonstrate that GP3 consistently outperforms state-of-the-art
methods on simulated benchmarks. Furthermore, GP3 transfers effectively to
real-world robots without depth sensors or pre-mapped environments, requiring
only minimal fine-tuning. These results highlight GP3 as a practical,
sensor-agnostic solution for geometry-aware robotic manipulation.
Ссылки и действия
Дополнительные ресурсы: