Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

2509.18631v1 cs.RO, cs.AI 2025-09-25
Авторы:

Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu

Резюме на русском

#### Контекст Научное исследование посвящено области робототехники и управления, в частности, развитию методов обучения политик манипулирования. Одна из основных проблем в этой области заключается в том, что получение реальных демонстраций манипуляций требует значительных финансовых и временных затрат. Моделирование в симуляторе предлагается как более сложный, но стоительный вариант. Однако существуют значительные различия между моделированием и реальным миром, что затрудняет передачу политик из симулятора в реальный мир. Данная работа адресует эту проблему, предлагая универсальный подход к обучению общих политик манипулирования, основанный на симуляции, но использующий только небольшое количество реальных демонстраций. #### Метод Предлагаемая методология основывается на координированном обучении в симуляции и реальном мире (sim-and-real co-training). Главным инсайтом является то, что обучение должно стремиться к созданию доменно-независимого и задачеподходящего пространства признаков. Для этого используется подход, основанный на Оптимальном Транспорте (Optimal Transport, OT). Оптимальный транспорт используется для выравнивания распределений наблюдений и действий в двух доменах — симуляции и реального мира. Для учета неравенства между обилием симуляционных данных и ограниченным числом реальных демонстраций, расширяется модель Unbalanced OT. Это позволяет добиться более эффективного обучения, учитывая неоднаковую количественную загрузку данных. #### Результаты На различных сложных задачах манипулирования показаны эксперименты, продемонстрировав выигрыш от применения предлагаемой модели. Например, в некоторых случаях удалось получить улучшение успешности манипуляций в реальном мире на 30%, сравниваясь с базовыми методами. Далее, показана возможность общеучительности политик — их успешное применение на сценариях, описанных только в симуляции, но не имеющих реального аналога. #### Значимость Предлагаемый подход имеет широкие возможности применения в сферах, где требуется обучение политик манипулирования со скромными затратами на реальные данные. Например, в производственных цепочках, в сфере охраны здоровья или в сервисных роботах. Особые преимущества открываются в области генерализируемости политик — возможности их использования в различных, даже неизвестных заранее, реальных сценариях, если они были протестированы в симуляции. #### Выводы Основным достижением является разработка метода обучения политик манипулирования, который успешно комбинирует симуляционные и реальные данные, чтобы обеспечить общеучительность и стабильность. Дальнейшие исследования б

Abstract

Behavior cloning has shown promise for robot manipulation, but real-world demonstrations are costly to acquire at scale. While simulated data offers a scalable alternative, particularly with advances in automated demonstration generation, transferring policies to the real world is hampered by various simulation and real domain gaps. In this work, we propose a unified sim-and-real co-training framework for learning generalizable manipulation policies that primarily leverages simulation and only requires a few real-world demonstrations. Central to our approach is learning a domain-invariant, task-relevant feature space. Our key insight is that aligning the joint distributions of observations and their corresponding actions across domains provides a richer signal than aligning observations (marginals) alone. We achieve this by embedding an Optimal Transport (OT)-inspired loss within the co-training framework, and extend this to an Unbalanced OT framework to handle the imbalance between abundant simulation data and limited real-world examples. We validate our method on challenging manipulation tasks, showing it can leverage abundant simulation data to achieve up to a 30% improvement in the real-world success rate and even generalize to scenarios seen only in simulation.

Ссылки и действия