ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation
2509.19454v1
cs.RO, cs.AI, cs.CV, cs.LG
2025-09-26
Авторы:
Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita
Резюме на русском
## Контекст
Процесс обучения политик манипуляции в среде с двумя руками (bimanual manipulation) чрезвычайно зависит от качественных демонстрационных данных, представляющих различные положения рук, контакты, и контекст сцены. Однако создание таких данных в реальной среде является дорогостоящим и утомительным, что ограничивает масштабируемость. Данная проблема усиливается при использовании технологии синтеза изображений для генерации поз под несколькими углами (third-person view) с привязанным действием. Для решения этой проблемы мы предлагаем метод для генерации синтетических поз робота (Synthetic Robot Pose Generation, ROPA), который использует методы оптимизации для создания реалистичных RGB и RGB-D изображений с действиями в eye-to-hand (third-person) маннипуляции.
## Метод
Метод ROPA использует Stable Diffusion, чтобы генерировать синтетические RGB и RGB-D изображения робота с различными позициями и действиями. Мы внедрили ограниченную оптимизацию для сохранения физической консистенции, контролируя контакт между крюком и предметом. Для создания новых действий в тренировочных данных мы применяем методы заданий уровня, что позволяет синтезировать данные с новыми тэгами действий. Это позволяет увеличить разнообразие данных для обучения политик манипуляции без необходимости сбора реальных данных.
## Результаты
Мы проверили ROPA на 5 симулированных и 3 реальных задачах. Наши результаты показывают, что ROPA значительно улучшает стабильность и точность синтетических данных, сравниваясь с базовыми методами. Мы провели 2625 симуляционных и 300 реальных экспериментов, показав, что ROPA создает новые действия с более высоким качеством и меньшей нагрузкой на ресурсы.
## Значимость
Робот, обученный с помощью ROPA, может заменить реальные данные с тем же уровнем качества. Метод также может быть применен в широком круге задач, включая сборку, перемещение предметов и общение с объектами в eye-to-hand маннипуляции. Это делает ROPA эффективным инструментом для ускорения процесса обучения и увеличения масштабируемости в системах с двумя руками.
## Выводы
Мы представили ROPA, метод для генерации синтетических поз рук робота в eye-to-hand маннипуляции. Наши результаты показывают, что ROPA выполняет лучше базовых методов и может быть использована для синтеза новых действий с более высоким качеством. Будущие исследования будут направлены на улучшение физической консистенции и масштабируемости наших технологий.
Abstract
Training robust bimanual manipulation policies via imitation learning
requires demonstration data with broad coverage over robot poses, contacts, and
scene contexts. However, collecting diverse and precise real-world
demonstrations is costly and time-consuming, which hinders scalability. Prior
works have addressed this with data augmentation, typically for either
eye-in-hand (wrist camera) setups with RGB inputs or for generating novel
images without paired actions, leaving augmentation for eye-to-hand
(third-person) RGB-D training with new action labels less explored. In this
paper, we propose Synthetic Robot Pose Generation for RGB-D Bimanual Data
Augmentation (ROPA), an offline imitation learning data augmentation method
that fine-tunes Stable Diffusion to synthesize third-person RGB and RGB-D
observations of novel robot poses. Our approach simultaneously generates
corresponding joint-space action labels while employing constrained
optimization to enforce physical consistency through appropriate
gripper-to-object contact constraints in bimanual scenarios. We evaluate our
method on 5 simulated and 3 real-world tasks. Our results across 2625
simulation trials and 300 real-world trials demonstrate that ROPA outperforms
baselines and ablations, showing its potential for scalable RGB and RGB-D data
augmentation in eye-to-hand bimanual manipulation. Our project website is
available at: https://ropaaug.github.io/.