EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data
2509.19626v1
cs.RO, cs.CV, cs.LG
2025-09-26
Авторы:
Ryan Punamiya, Dhruv Patel, Patcharapong Aphiwetsa, Pranav Kuppili, Lawrence Y. Zhu, Simar Kareer, Judy Hoffman, Danfei Xu
Резюме на русском
#### Контекст
Imitation learning (IL) позволяет роботам моделировать поведение человека, чтобы выполнять задачи, но значительные доменные разрывы в визуальной репрезентации, сенсорных модолях и динамике между компьютерным зрением человека и роботом ограничивают эффективность техники. Это является особенно важной проблемой для манипуляционных задач, где даже небольшие различия в поведении могут привести к серьезным проблемам. Например, в задаче "брейк-энд-грип" робот должен понять, когда нужно захватить предмет, и возможность определить это в реальном времени определяет успех. В настоящей работе мы исследуем ключевые проблемы, связанные с эту задачу, такие как круговая импедансная модель, которая позволяет роботу плавно изменять ток в реальном времени, и динамический индекс распределения, который позволяет адаптироваться к разным объектам.
#### Метод
Мы предлагаем EgoBridge, новый фреймворк, который учитывает эти проблемы, сфокусированный на совместной обучении пространств решений для человека и робота. Основная идея заключается в том, чтобы создать универсальный параметрический метод, позволяющий менять данные между визуальным и техническим видом, используя графический движок и алгоритмы машинного обучения. Мы используем несколько технических решений, включая оптимальный транспорт, который позволяет сопоставить одно множество с другим, и алгоритмы визуального скрытого состояния, которые позволяют учитывать как визуальные, так и динамические параметры. Мы также вводим новый подход для оценки того, насколько хорошо происходит взаимодействие между роботом и человеком в разных ситуациях.
#### Результаты
Мы проводили эксперименты на трех реальных датасетах, которые включают в себя как простые, так и сложные задачи манипуляции. Наши результаты показывают, что наш фреймворк EgoBridge значительно улучшает поведение робота в задачах, где существуют доменные разрывы. Например, в задаче "брейк-энд-грип" наша модель повысила успех от 38% до 82%, что является существенным улучшением. Мы также проверили нашу модель на новых задачах, для которых были доступны только данные из человеческого опыта, и установили, что она способна генерировать успешные решения, не имея предварительных знаний о новых объектах и сценариях.
#### Значимость
EgoBridge может использоваться в различных приложениях, включая машинное зрение, автоматизацию производственных процессов и медицинские роботы. Он предоставляет универсальный подход, обеспечивающий грубое алгоритмическое совместимость человека и робота в многообразных условиях. Одним из ключевых пре
Abstract
Egocentric human experience data presents a vast resource for scaling up
end-to-end imitation learning for robotic manipulation. However, significant
domain gaps in visual appearance, sensor modalities, and kinematics between
human and robot impede knowledge transfer. This paper presents EgoBridge, a
unified co-training framework that explicitly aligns the policy latent spaces
between human and robot data using domain adaptation. Through a measure of
discrepancy on the joint policy latent features and actions based on Optimal
Transport (OT), we learn observation representations that not only align
between the human and robot domain but also preserve the action-relevant
information critical for policy learning. EgoBridge achieves a significant
absolute policy success rate improvement by 44% over human-augmented
cross-embodiment baselines in three real-world single-arm and bimanual
manipulation tasks. EgoBridge also generalizes to new objects, scenes, and
tasks seen only in human data, where baselines fail entirely. Videos and
additional information can be found at https://ego-bridge.github.io
Ссылки и действия
Дополнительные ресурсы: