EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

2509.19626v1 cs.RO, cs.CV, cs.LG 2025-09-26
Авторы:

Ryan Punamiya, Dhruv Patel, Patcharapong Aphiwetsa, Pranav Kuppili, Lawrence Y. Zhu, Simar Kareer, Judy Hoffman, Danfei Xu

Резюме на русском

#### Контекст Imitation learning (IL) позволяет роботам моделировать поведение человека, чтобы выполнять задачи, но значительные доменные разрывы в визуальной репрезентации, сенсорных модолях и динамике между компьютерным зрением человека и роботом ограничивают эффективность техники. Это является особенно важной проблемой для манипуляционных задач, где даже небольшие различия в поведении могут привести к серьезным проблемам. Например, в задаче "брейк-энд-грип" робот должен понять, когда нужно захватить предмет, и возможность определить это в реальном времени определяет успех. В настоящей работе мы исследуем ключевые проблемы, связанные с эту задачу, такие как круговая импедансная модель, которая позволяет роботу плавно изменять ток в реальном времени, и динамический индекс распределения, который позволяет адаптироваться к разным объектам. #### Метод Мы предлагаем EgoBridge, новый фреймворк, который учитывает эти проблемы, сфокусированный на совместной обучении пространств решений для человека и робота. Основная идея заключается в том, чтобы создать универсальный параметрический метод, позволяющий менять данные между визуальным и техническим видом, используя графический движок и алгоритмы машинного обучения. Мы используем несколько технических решений, включая оптимальный транспорт, который позволяет сопоставить одно множество с другим, и алгоритмы визуального скрытого состояния, которые позволяют учитывать как визуальные, так и динамические параметры. Мы также вводим новый подход для оценки того, насколько хорошо происходит взаимодействие между роботом и человеком в разных ситуациях. #### Результаты Мы проводили эксперименты на трех реальных датасетах, которые включают в себя как простые, так и сложные задачи манипуляции. Наши результаты показывают, что наш фреймворк EgoBridge значительно улучшает поведение робота в задачах, где существуют доменные разрывы. Например, в задаче "брейк-энд-грип" наша модель повысила успех от 38% до 82%, что является существенным улучшением. Мы также проверили нашу модель на новых задачах, для которых были доступны только данные из человеческого опыта, и установили, что она способна генерировать успешные решения, не имея предварительных знаний о новых объектах и сценариях. #### Значимость EgoBridge может использоваться в различных приложениях, включая машинное зрение, автоматизацию производственных процессов и медицинские роботы. Он предоставляет универсальный подход, обеспечивающий грубое алгоритмическое совместимость человека и робота в многообразных условиях. Одним из ключевых пре

Abstract

Egocentric human experience data presents a vast resource for scaling up end-to-end imitation learning for robotic manipulation. However, significant domain gaps in visual appearance, sensor modalities, and kinematics between human and robot impede knowledge transfer. This paper presents EgoBridge, a unified co-training framework that explicitly aligns the policy latent spaces between human and robot data using domain adaptation. Through a measure of discrepancy on the joint policy latent features and actions based on Optimal Transport (OT), we learn observation representations that not only align between the human and robot domain but also preserve the action-relevant information critical for policy learning. EgoBridge achieves a significant absolute policy success rate improvement by 44% over human-augmented cross-embodiment baselines in three real-world single-arm and bimanual manipulation tasks. EgoBridge also generalizes to new objects, scenes, and tasks seen only in human data, where baselines fail entirely. Videos and additional information can be found at https://ego-bridge.github.io

Ссылки и действия