MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training

2509.22199v2 cs.RO, cs.AI 2025-09-30
Авторы:

Haoyun Li, Ivan Zhang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Zhiqin Yang, Zhentao Zhang, Boyuan Wang, Chaojun Ni, Wenkang Qin, Xinze Chen, Yun Ye, Guan Huang, Zhenbo Song, Xingang Wang

Резюме на русском

#### Контекст В области визуально-языковой активности (Vision Language Action, VLA) существует необходимость в больших и разнообразных наборах данных для эффективной политической подготовки. Однако собирать данные с реальных роботов остается дорогостоящим и трудоемким процессом. Вместо этого, видео-демонстрации людей набирают всё большую популярность в качестве стоимостно эффективных и масштабируемых вариантов для обучения VLA. Тем не менее, всё до сих пор существует существенный доменный шаг между видео, снятыми с людей, и видео, собранными с роботов. Эти различия включают в себя нестабильные точки зрения камеры, различия в визуальном восприятии рук людей и роботских курсоров, а также отличия в динамике движения. Наша цель — разработать метод, который бы превращал бы дешевые и быстрые демонстрации людей в робот-ориентированную наблюдательную подготовку, способную поддерживать политическую обучение. #### Метод Мы предлагаем MimicDreamer, фреймворк, который преобразовывает быстрые и низкостоимостные демонстрации людей в робот-подходящую наблюдательную подготовку. Для визуального выравнивания мы предлагаем H2R Aligner, видео-диффузионный модель, которая генерирует высококачественные робот-демонстрационные видео, передавая движение из кадров с человеческими манипуляциями. Для стабилизации точки зрения мы предлагаем EgoStabilizer, который канонизирует эгоцентрические видео с помощью гомографии и инпаинтит оккультации и деформации, вызванные этим процессом. Для выравнивания действий мы сопоставляем траектории человеческих пальцев к роботской системе координат и применяем ограниченный решатель обратной кинематики для производения бесшовных, мало-чихущих команд с точным положением. #### Результаты Мы использовали наши синтезированные видео-демонстрации людей-роботами для обучения VLA-моделей. Эти модели показали впечатляющие результаты в шести представительных манипуляционных задачах, считая роботом-управляемыми реальными роботами. Наши результаты показали увеличение процента успешных испытаний на 14,7% по сравнению с моделями, обученными только на традиционных роботских данных. Мы также показали, что наши синтезированные данные могут быть использованы для масштабного обучения VLA-моделей на основе новых человеческих демонстраций, снизив стоимость и ускорив процесс подготовки к политике. #### Значимость Мы видим применение нашего подхода в различных областях, включая автоматизацию, робототехнику, интерактивные системы, и даже развитие систем помощи для инвалидов. Мы предоставляем новый с

Abstract

Vision Language Action (VLA) models derive their generalization capability from diverse training data, yet collecting embodied robot interaction data remains prohibitively expensive. In contrast, human demonstration videos are far more scalable and cost-efficient to collect, and recent studies confirm their effectiveness in training VLA models. However, a significant domain gap persists between human videos and robot-executed videos, including unstable camera viewpoints, visual discrepancies between human hands and robotic arms, and differences in motion dynamics. To bridge this gap, we propose MimicDreamer, a framework that turns fast, low-cost human demonstrations into robot-usable supervision by jointly aligning vision, viewpoint, and actions to directly support policy training. For visual alignment, we propose H2R Aligner, a video diffusion model that generates high-fidelity robot demonstration videos by transferring motion from human manipulation footage. For viewpoint stabilization, EgoStabilizer is proposed, which canonicalizes egocentric videos via homography and inpaints occlusions and distortions caused by warping. For action alignment, we map human hand trajectories to the robot frame and apply a constrained inverse kinematics solver to produce feasible, low-jitter joint commands with accurate pose tracking. Empirically, VLA models trained purely on our synthesized human-to-robot videos achieve few-shot execution on real robots. Moreover, scaling training with human data significantly boosts performance compared to models trained solely on real robot data; our approach improves the average success rate by 14.7\% across six representative manipulation tasks.

Ссылки и действия