Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
2509.18631v1
cs.RO, cs.AI
2025-09-25
Авторы:
Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu
Резюме на русском
#### Контекст
Научное исследование посвящено области робототехники и управления, в частности, развитию методов обучения политик манипулирования. Одна из основных проблем в этой области заключается в том, что получение реальных демонстраций манипуляций требует значительных финансовых и временных затрат. Моделирование в симуляторе предлагается как более сложный, но стоительный вариант. Однако существуют значительные различия между моделированием и реальным миром, что затрудняет передачу политик из симулятора в реальный мир. Данная работа адресует эту проблему, предлагая универсальный подход к обучению общих политик манипулирования, основанный на симуляции, но использующий только небольшое количество реальных демонстраций.
#### Метод
Предлагаемая методология основывается на координированном обучении в симуляции и реальном мире (sim-and-real co-training). Главным инсайтом является то, что обучение должно стремиться к созданию доменно-независимого и задачеподходящего пространства признаков. Для этого используется подход, основанный на Оптимальном Транспорте (Optimal Transport, OT). Оптимальный транспорт используется для выравнивания распределений наблюдений и действий в двух доменах — симуляции и реального мира. Для учета неравенства между обилием симуляционных данных и ограниченным числом реальных демонстраций, расширяется модель Unbalanced OT. Это позволяет добиться более эффективного обучения, учитывая неоднаковую количественную загрузку данных.
#### Результаты
На различных сложных задачах манипулирования показаны эксперименты, продемонстрировав выигрыш от применения предлагаемой модели. Например, в некоторых случаях удалось получить улучшение успешности манипуляций в реальном мире на 30%, сравниваясь с базовыми методами. Далее, показана возможность общеучительности политик — их успешное применение на сценариях, описанных только в симуляции, но не имеющих реального аналога.
#### Значимость
Предлагаемый подход имеет широкие возможности применения в сферах, где требуется обучение политик манипулирования со скромными затратами на реальные данные. Например, в производственных цепочках, в сфере охраны здоровья или в сервисных роботах. Особые преимущества открываются в области генерализируемости политик — возможности их использования в различных, даже неизвестных заранее, реальных сценариях, если они были протестированы в симуляции.
#### Выводы
Основным достижением является разработка метода обучения политик манипулирования, который успешно комбинирует симуляционные и реальные данные, чтобы обеспечить общеучительность и стабильность. Дальнейшие исследования б
Abstract
Behavior cloning has shown promise for robot manipulation, but real-world
demonstrations are costly to acquire at scale. While simulated data offers a
scalable alternative, particularly with advances in automated demonstration
generation, transferring policies to the real world is hampered by various
simulation and real domain gaps. In this work, we propose a unified
sim-and-real co-training framework for learning generalizable manipulation
policies that primarily leverages simulation and only requires a few real-world
demonstrations. Central to our approach is learning a domain-invariant,
task-relevant feature space. Our key insight is that aligning the joint
distributions of observations and their corresponding actions across domains
provides a richer signal than aligning observations (marginals) alone. We
achieve this by embedding an Optimal Transport (OT)-inspired loss within the
co-training framework, and extend this to an Unbalanced OT framework to handle
the imbalance between abundant simulation data and limited real-world examples.
We validate our method on challenging manipulation tasks, showing it can
leverage abundant simulation data to achieve up to a 30% improvement in the
real-world success rate and even generalize to scenarios seen only in
simulation.
Ссылки и действия
Дополнительные ресурсы: