EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer

2509.22407v1 cs.AI, cs.RO 2025-09-30
Авторы:

Zhehao Dong, Xiaofeng Wang, Zheng Zhu, Yirui Wang, Yang Wang, Yukun Zhou, Boyuan Wang, Chaojun Ni, Runqi Ouyang, Wenkang Qin, Xinze Chen, Yun Ye, Guan Huang

Резюме на русском

## Контекст Область виджин-лангуаж-акшн (VLA) моделей растёт, но создание больших наборов данных для реального роботного манипулирования остаётся дорогостоящим и трудоёмким. Это ставит перед исследователями задачу найти эффективные способы повысить общую способность моделей. Одной из проблем является трудность создания разнообразных данных для обучения, включающих различные объекты и условия окружения. Задача EMMA — создать фреймворк, который позволит генерировать роботные данные, обеспечивая робастную генеральную способность, в том числе при переносе на новые визуальные сценарии. ## Метод Основной архитектурой EMMA является DreamTransfer — диффузионный трансформер, разработанный для генерации видео manipulation с многопросмотровым согласованием и геометрическим здравомыслием. Он позволяет редактировать видео робота в реальном времени, изменяя фоновые и передние объекты, а также освещение, при этом сохраняя трёхмерную структуру. Для повышения устойчивости обучения вводится гибридная стратегия обучения, сочетающая реальные и генерируемые данные. Также представлена AdaMix — стратегия, которая регулирует веса обучающих батчей в зависимости от их сложности. ## Результаты Результаты экспериментов показали, что видео, сгенерированные DreamTransfer, превосходят другие технологии в многопросмотровой точности, геометрической аккуратности и устойчивости к смене текстового условия. Был проведён тест на роботных задачах в незнакомых визуальных сценариях, где VLA с генерируемыми данными показало 200% большую производительность по сравнению с тренировкой только на реальных данных. Использование AdaMix дало дополнительный прирост в 13%, подтвердив эффективность стратегии в условиях высоких сложности. ## Значимость Приложение EMMA расширяет возможности VLA моделей, позволяя им обобщаться на новые визуальные условия и категории объектов. Это имеет большое значение для реального применения в сферах, где требуется гибкость и надежность взаимодействия роботов с окружением. Особенно полезно для сценариев с нулевым визуальным восприятием. ## Выводы Результаты EMMA открывают путь к будущим исследованиям в области генерации визуальных данных для манипулирования роботами. В будущем будет интересно исследовать усовершенствования DreamTransfer, чтобы добиться ещё большей точности и гибкости в построении визуальных моделей.

Abstract

Vision-language-action (VLA) models increasingly rely on diverse training data to achieve robust generalization. However, collecting large-scale real-world robot manipulation data across varied object appearances and environmental conditions remains prohibitively time-consuming and expensive. To overcome this bottleneck, we propose Embodied Manipulation Media Adaptation (EMMA), a VLA policy enhancement framework that integrates a generative data engine with an effective training pipeline. We introduce DreamTransfer, a diffusion Transformer-based framework for generating multi-view consistent, geometrically grounded embodied manipulation videos. DreamTransfer enables text-controlled visual editing of robot videos, transforming foreground, background, and lighting conditions without compromising 3D structure or geometrical plausibility. Furthermore, we explore hybrid training with real and generated data, and introduce AdaMix, a hard-sample-aware training strategy that dynamically reweights training batches to focus optimization on perceptually or kinematically challenging samples. Extensive experiments show that videos generated by DreamTransfer significantly outperform prior video generation methods in multi-view consistency, geometric fidelity, and text-conditioning accuracy. Crucially, VLAs trained with generated data enable robots to generalize to unseen object categories and novel visual domains using only demonstrations from a single appearance. In real-world robotic manipulation tasks with zero-shot visual domains, our approach achieves over a 200% relative performance gain compared to training on real data alone, and further improves by 13% with AdaMix, demonstrating its effectiveness in boosting policy generalization.

Ссылки и действия