ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

2509.11125v1 cs.RO, cs.CV 2025-09-17

Авторы:

Zheng Li, Pei Qu, Yufei Jia, Shihui Zhou, Haizhou Ge, Jiahang Cao, Jinni Zhou, Guyue Zhou, Jun Ma

Резюме на русском

## Контекст Одна из основных проблем в области визуального управления роботами заключается в том, что политики, обученные в условиях фиксированного камерного перспективного представления, часто неэффективны при перемещении камеры. Это становится критично в реальных условиях, где расположение датчиков трудно контролировать. Таким образом, необходимо создать методы, которые бы учитывали эту сложность, обеспечивая стабильность и надежность во время выполнения манипуляций. ## Метод Мы предлагаем ManiVID-3D, новый 3D-RL-архитектура, ориентированная на обучение view-invariant (независимых от точки зрения) представлений с использованием самостоятельного обучения (self-supervised) и дисентгрализации признаков. Центральной частью этого подхода является ViewNet, модуль, который автоматически выравнивает точечные облака наблюдений в едином пространстве координат, не требуя внешней калибровки. Для ускорения обучения мы также разработали GPU-акселерацию, обрабатывающую более 5000 кадров в секунду, что позволяет развивать 3D-визуальные модели с повышенной скоростью. ## Результаты Мы провели эксперименты на 10 симуляторных и 5 реальных задачах, сравнив ManiVID-3D с другими подходами. Наши результаты показали выигрыш в 44.7% в условиях перемены точки зрения, при этом используя 80% меньше параметров. Это подтверждает эффективность нового подхода в обучении роботов в условиях сильных перспективных перемен. ## Значимость Метод ManiVID-3D может использоваться в реальном мире для улучшения визуально-рефорсментной системы управления роботами. Он предлагает высокую скорость тренировки, высокую устойчивость к переменам точки зрения и высокую степень универсальности. Это открывает новые возможности для общей робототехники, а также для систем, работающих в нестандартных условиях. ## Выводы Мы доказали, что ManiVID-3D значительно улучшает стабильность и эффективность роботов в различных условиях. Наша работа открывает новые пути для исследований в области обучения роботам в нестандартных условиях, включая улучшение обработки точечных облаков и развитие универсальных RL-политик. Мы планируем расширить применение этой модели к более сложным задачам и ситуациям в реальном мире.

Abstract

Deploying visual reinforcement learning (RL) policies in real-world manipulation is often hindered by camera viewpoint changes. A policy trained from a fixed front-facing camera may fail when the camera is shifted--an unavoidable situation in real-world settings where sensor placement is hard to manage appropriately. Existing methods often rely on precise camera calibration or struggle with large perspective changes. To address these limitations, we propose ManiVID-3D, a novel 3D RL architecture designed for robotic manipulation, which learns view-invariant representations through self-supervised disentangled feature learning. The framework incorporates ViewNet, a lightweight yet effective module that automatically aligns point cloud observations from arbitrary viewpoints into a unified spatial coordinate system without the need for extrinsic calibration. Additionally, we develop an efficient GPU-accelerated batch rendering module capable of processing over 5000 frames per second, enabling large-scale training for 3D visual RL at unprecedented speeds. Extensive evaluation across 10 simulated and 5 real-world tasks demonstrates that our approach achieves a 44.7% higher success rate than state-of-the-art methods under viewpoint variations while using 80% fewer parameters. The system's robustness to severe perspective changes and strong sim-to-real performance highlight the effectiveness of learning geometrically consistent representations for scalable robotic manipulation in unstructured environments. Our project website can be found in https://zheng-joe-lee.github.io/manivid3d/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация