Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
2509.18631v2
cs.RO, cs.AI
2025-09-26
Авторы:
Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu
Резюме на русском
## Контекст
Роботские манипуляции широко применяются в различных областях, но их успешное применение часто ограничивается доступом к большим объемам качественных реальных демонстраций. Реалистичные симуляции могут стать альтернативой, но существует значительный "голодный закон" -- необходимость большого количества демонстраций в симуляции для получения достаточного качества в реальности. Это влечет за собой высокую стоимость и сложность, особенно при масштабировании. Наша мотивация заключается в разработке метода, эффективно использующего доступные симуляционные данные, чтобы обучить обобщаемые политики манипуляций с минимальным использованием реальных демонстраций.
## Метод
Мы предлагаем метод **Sim-and-Real Co-Training**, основанный на обучении обобщаемых задач манипуляций. Основная идея заключается в том, чтобы учитывать взаимосвязь объектов и действий в задаче, а не только в раздельности. Для этого мы внедрили **Optimal Transport (OT)**-inspired loss в фреймворк сим-и-реального ко-тренирования. Это позволяет выравнивать распределения наблюдений и действий между симуляцией и реальностью. Для обработки неравенств между большим количеством симуляционных данных и ограниченным количеством реальных демонстраций, мы расширили фреймворк на **Unbalanced OT**. Это позволяет учитывать различия между данными симуляции и реальности, обеспечивая более точное обучение.
## Результаты
Мы проводили эксперименты на различных задачах манипуляций, включая доставку предметов и обработку реальных объектов. Метод показал способность использовать доступные симуляционные данные для значительного улучшения реального успешности -- в до 30% в некоторых задачах. Далее, наши результаты показали, что полученные политики могут обобщаться на сценарии, которые не были видны во время обучения, но были симулированы. Это подтверждает эффективность нашего подхода в улучшении общей целесообразности в области манипуляций.
## Значимость
Метод может быть применен в сферах, где необходимо масштабирование манипуляционных задач, таких как агротехника, доставка, или производство. Особым преимуществом является способность эффективно использовать симуляционные данные, чтобы улучшить реальные задачи. Это может привести к снижению стоимости, уменьшению потребности в реальных демонстрациях, и увеличению производительности в ситуациях, где реальная интерактивность ограничена.
## Выводы
Мы проверили эффективность нашего подхода в различных сценариях и показали, что он может значительно улучшить общую эффективность политик манипуляций. Будущие исследования будут сконцентрированы на допо
Abstract
Behavior cloning has shown promise for robot manipulation, but real-world
demonstrations are costly to acquire at scale. While simulated data offers a
scalable alternative, particularly with advances in automated demonstration
generation, transferring policies to the real world is hampered by various
simulation and real domain gaps. In this work, we propose a unified
sim-and-real co-training framework for learning generalizable manipulation
policies that primarily leverages simulation and only requires a few real-world
demonstrations. Central to our approach is learning a domain-invariant,
task-relevant feature space. Our key insight is that aligning the joint
distributions of observations and their corresponding actions across domains
provides a richer signal than aligning observations (marginals) alone. We
achieve this by embedding an Optimal Transport (OT)-inspired loss within the
co-training framework, and extend this to an Unbalanced OT framework to handle
the imbalance between abundant simulation data and limited real-world examples.
We validate our method on challenging manipulation tasks, showing it can
leverage abundant simulation data to achieve up to a 30% improvement in the
real-world success rate and even generalize to scenarios seen only in
simulation.
Ссылки и действия
Дополнительные ресурсы: