ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

2509.19454v1 cs.RO, cs.AI, cs.CV, cs.LG 2025-09-26
Авторы:

Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita

Резюме на русском

## Контекст Процесс обучения политик манипуляции в среде с двумя руками (bimanual manipulation) чрезвычайно зависит от качественных демонстрационных данных, представляющих различные положения рук, контакты, и контекст сцены. Однако создание таких данных в реальной среде является дорогостоящим и утомительным, что ограничивает масштабируемость. Данная проблема усиливается при использовании технологии синтеза изображений для генерации поз под несколькими углами (third-person view) с привязанным действием. Для решения этой проблемы мы предлагаем метод для генерации синтетических поз робота (Synthetic Robot Pose Generation, ROPA), который использует методы оптимизации для создания реалистичных RGB и RGB-D изображений с действиями в eye-to-hand (third-person) маннипуляции. ## Метод Метод ROPA использует Stable Diffusion, чтобы генерировать синтетические RGB и RGB-D изображения робота с различными позициями и действиями. Мы внедрили ограниченную оптимизацию для сохранения физической консистенции, контролируя контакт между крюком и предметом. Для создания новых действий в тренировочных данных мы применяем методы заданий уровня, что позволяет синтезировать данные с новыми тэгами действий. Это позволяет увеличить разнообразие данных для обучения политик манипуляции без необходимости сбора реальных данных. ## Результаты Мы проверили ROPA на 5 симулированных и 3 реальных задачах. Наши результаты показывают, что ROPA значительно улучшает стабильность и точность синтетических данных, сравниваясь с базовыми методами. Мы провели 2625 симуляционных и 300 реальных экспериментов, показав, что ROPA создает новые действия с более высоким качеством и меньшей нагрузкой на ресурсы. ## Значимость Робот, обученный с помощью ROPA, может заменить реальные данные с тем же уровнем качества. Метод также может быть применен в широком круге задач, включая сборку, перемещение предметов и общение с объектами в eye-to-hand маннипуляции. Это делает ROPA эффективным инструментом для ускорения процесса обучения и увеличения масштабируемости в системах с двумя руками. ## Выводы Мы представили ROPA, метод для генерации синтетических поз рук робота в eye-to-hand маннипуляции. Наши результаты показывают, что ROPA выполняет лучше базовых методов и может быть использована для синтеза новых действий с более высоким качеством. Будущие исследования будут направлены на улучшение физической консистенции и масштабируемости наших технологий.

Abstract

Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-to-hand (third-person) RGB-D training with new action labels less explored. In this paper, we propose Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation (ROPA), an offline imitation learning data augmentation method that fine-tunes Stable Diffusion to synthesize third-person RGB and RGB-D observations of novel robot poses. Our approach simultaneously generates corresponding joint-space action labels while employing constrained optimization to enforce physical consistency through appropriate gripper-to-object contact constraints in bimanual scenarios. We evaluate our method on 5 simulated and 3 real-world tasks. Our results across 2625 simulation trials and 300 real-world trials demonstrate that ROPA outperforms baselines and ablations, showing its potential for scalable RGB and RGB-D data augmentation in eye-to-hand bimanual manipulation. Our project website is available at: https://ropaaug.github.io/.

Ссылки и действия