ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations
2509.11125v1
cs.RO, cs.CV
2025-09-17
Авторы:
Zheng Li, Pei Qu, Yufei Jia, Shihui Zhou, Haizhou Ge, Jiahang Cao, Jinni Zhou, Guyue Zhou, Jun Ma
Резюме на русском
## Контекст
Одна из основных проблем в области визуального управления роботами заключается в том, что политики, обученные в условиях фиксированного камерного перспективного представления, часто неэффективны при перемещении камеры. Это становится критично в реальных условиях, где расположение датчиков трудно контролировать. Таким образом, необходимо создать методы, которые бы учитывали эту сложность, обеспечивая стабильность и надежность во время выполнения манипуляций.
## Метод
Мы предлагаем ManiVID-3D, новый 3D-RL-архитектура, ориентированная на обучение view-invariant (независимых от точки зрения) представлений с использованием самостоятельного обучения (self-supervised) и дисентгрализации признаков. Центральной частью этого подхода является ViewNet, модуль, который автоматически выравнивает точечные облака наблюдений в едином пространстве координат, не требуя внешней калибровки. Для ускорения обучения мы также разработали GPU-акселерацию, обрабатывающую более 5000 кадров в секунду, что позволяет развивать 3D-визуальные модели с повышенной скоростью.
## Результаты
Мы провели эксперименты на 10 симуляторных и 5 реальных задачах, сравнив ManiVID-3D с другими подходами. Наши результаты показали выигрыш в 44.7% в условиях перемены точки зрения, при этом используя 80% меньше параметров. Это подтверждает эффективность нового подхода в обучении роботов в условиях сильных перспективных перемен.
## Значимость
Метод ManiVID-3D может использоваться в реальном мире для улучшения визуально-рефорсментной системы управления роботами. Он предлагает высокую скорость тренировки, высокую устойчивость к переменам точки зрения и высокую степень универсальности. Это открывает новые возможности для общей робототехники, а также для систем, работающих в нестандартных условиях.
## Выводы
Мы доказали, что ManiVID-3D значительно улучшает стабильность и эффективность роботов в различных условиях. Наша работа открывает новые пути для исследований в области обучения роботам в нестандартных условиях, включая улучшение обработки точечных облаков и развитие универсальных RL-политик. Мы планируем расширить применение этой модели к более сложным задачам и ситуациям в реальном мире.
Abstract
Deploying visual reinforcement learning (RL) policies in real-world
manipulation is often hindered by camera viewpoint changes. A policy trained
from a fixed front-facing camera may fail when the camera is shifted--an
unavoidable situation in real-world settings where sensor placement is hard to
manage appropriately. Existing methods often rely on precise camera calibration
or struggle with large perspective changes. To address these limitations, we
propose ManiVID-3D, a novel 3D RL architecture designed for robotic
manipulation, which learns view-invariant representations through
self-supervised disentangled feature learning. The framework incorporates
ViewNet, a lightweight yet effective module that automatically aligns point
cloud observations from arbitrary viewpoints into a unified spatial coordinate
system without the need for extrinsic calibration. Additionally, we develop an
efficient GPU-accelerated batch rendering module capable of processing over
5000 frames per second, enabling large-scale training for 3D visual RL at
unprecedented speeds. Extensive evaluation across 10 simulated and 5 real-world
tasks demonstrates that our approach achieves a 44.7% higher success rate than
state-of-the-art methods under viewpoint variations while using 80% fewer
parameters. The system's robustness to severe perspective changes and strong
sim-to-real performance highlight the effectiveness of learning geometrically
consistent representations for scalable robotic manipulation in unstructured
environments. Our project website can be found in
https://zheng-joe-lee.github.io/manivid3d/.
Ссылки и действия
Дополнительные ресурсы: