Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

2509.18631v2 cs.RO, cs.AI 2025-09-26

Авторы:

Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu

Резюме на русском

## Контекст Роботские манипуляции широко применяются в различных областях, но их успешное применение часто ограничивается доступом к большим объемам качественных реальных демонстраций. Реалистичные симуляции могут стать альтернативой, но существует значительный "голодный закон" -- необходимость большого количества демонстраций в симуляции для получения достаточного качества в реальности. Это влечет за собой высокую стоимость и сложность, особенно при масштабировании. Наша мотивация заключается в разработке метода, эффективно использующего доступные симуляционные данные, чтобы обучить обобщаемые политики манипуляций с минимальным использованием реальных демонстраций. ## Метод Мы предлагаем метод **Sim-and-Real Co-Training**, основанный на обучении обобщаемых задач манипуляций. Основная идея заключается в том, чтобы учитывать взаимосвязь объектов и действий в задаче, а не только в раздельности. Для этого мы внедрили **Optimal Transport (OT)**-inspired loss в фреймворк сим-и-реального ко-тренирования. Это позволяет выравнивать распределения наблюдений и действий между симуляцией и реальностью. Для обработки неравенств между большим количеством симуляционных данных и ограниченным количеством реальных демонстраций, мы расширили фреймворк на **Unbalanced OT**. Это позволяет учитывать различия между данными симуляции и реальности, обеспечивая более точное обучение. ## Результаты Мы проводили эксперименты на различных задачах манипуляций, включая доставку предметов и обработку реальных объектов. Метод показал способность использовать доступные симуляционные данные для значительного улучшения реального успешности -- в до 30% в некоторых задачах. Далее, наши результаты показали, что полученные политики могут обобщаться на сценарии, которые не были видны во время обучения, но были симулированы. Это подтверждает эффективность нашего подхода в улучшении общей целесообразности в области манипуляций. ## Значимость Метод может быть применен в сферах, где необходимо масштабирование манипуляционных задач, таких как агротехника, доставка, или производство. Особым преимуществом является способность эффективно использовать симуляционные данные, чтобы улучшить реальные задачи. Это может привести к снижению стоимости, уменьшению потребности в реальных демонстрациях, и увеличению производительности в ситуациях, где реальная интерактивность ограничена. ## Выводы Мы проверили эффективность нашего подхода в различных сценариях и показали, что он может значительно улучшить общую эффективность политик манипуляций. Будущие исследования будут сконцентрированы на допо

Abstract

Behavior cloning has shown promise for robot manipulation, but real-world demonstrations are costly to acquire at scale. While simulated data offers a scalable alternative, particularly with advances in automated demonstration generation, transferring policies to the real world is hampered by various simulation and real domain gaps. In this work, we propose a unified sim-and-real co-training framework for learning generalizable manipulation policies that primarily leverages simulation and only requires a few real-world demonstrations. Central to our approach is learning a domain-invariant, task-relevant feature space. Our key insight is that aligning the joint distributions of observations and their corresponding actions across domains provides a richer signal than aligning observations (marginals) alone. We achieve this by embedding an Optimal Transport (OT)-inspired loss within the co-training framework, and extend this to an Unbalanced OT framework to handle the imbalance between abundant simulation data and limited real-world examples. We validate our method on challenging manipulation tasks, showing it can leverage abundant simulation data to achieve up to a 30% improvement in the real-world success rate and even generalize to scenarios seen only in simulation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация