MV-UMI: A Scalable Multi-View Interface for Cross-Embodiment Learning
2509.18757v1
cs.RO, cs.AI
2025-09-25
Авторы:
Omar Rayyan, John Abanes, Mahmoud Hafez, Anthony Tzes, Fares Abu-Dakka
Резюме на русском
## Контекст
Развитие имитационного обучения позволило создавать прочные политики манипуляций роботов на основе демонстраций. Однако это возможно только при наличии разнообразных и качественных данных, которые трудно и дорого собираются, а также часто ограничены одним конкретным оборудованием. Мобильные портативные грипперы стали альтернативой традиционным методам телеоперации за счет интуитивности и масштабируемости. Однако они ограничены односторонним фокусом на первого лица, что существенно ограничивает контекстные сцены. Мы предлагаем MV-UMI (Multi-View Universal Manipulation Interface), фреймворк, который объединяет третьего лица и первого лица виды для улучшения понимания сцены.
## Метод
MV-UMI (Multi-View Universal Manipulation Interface) интегрирует виды из третьего лица и первого лица для расширения контекста. Он использует технологии синтеза вида с нескольких камер, чтобы обеспечить полностью подвижное изображение. Это позволяет уточнить контекстные детали в рамках одного изображения, улучшая удобство и точность. Метод основывается на данных, собранных с помощью портативных грипперов, и использует универсальный подход для обработки сцен.
## Результаты
Для измерения эффективности были проведены эксперименты на 3 задачах, включая передвижение и работу с предметами. Результаты показали улучшение подсубзадач, требующих широкого понимания сцены, на 47% по сравнению с базовым подходом. Это подтверждает эффективность фреймворка в расширении области задач, которые могут быть выполнены с помощью грипперов, не уменьшая преимуществ подхода.
## Значимость
Наша работа может быть применена в различных областях, включая автоматизацию, упаковку и производство. Она экономична и масштабируема, а её интеграция с портативными грипперами открывает новые возможности для обучения роботу. Это может привести к более эффективному использованию технологий в различных сферах.
## Выводы
Наш фреймворк MV-UMI демонстрирует улучшение качества и мощности систем имитационного обучения. Мы призываем к дальнейшим исследованиям в области расширения карты контекста и созданию более универсальных моделей для повышения точности и производительности роботов.
Abstract
Recent advances in imitation learning have shown great promise for developing
robust robot manipulation policies from demonstrations. However, this promise
is contingent on the availability of diverse, high-quality datasets, which are
not only challenging and costly to collect but are often constrained to a
specific robot embodiment. Portable handheld grippers have recently emerged as
intuitive and scalable alternatives to traditional robotic teleoperation
methods for data collection. However, their reliance solely on first-person
view wrist-mounted cameras often creates limitations in capturing sufficient
scene contexts. In this paper, we present MV-UMI (Multi-View Universal
Manipulation Interface), a framework that integrates a third-person perspective
with the egocentric camera to overcome this limitation. This integration
mitigates domain shifts between human demonstration and robot deployment,
preserving the cross-embodiment advantages of handheld data-collection devices.
Our experimental results, including an ablation study, demonstrate that our
MV-UMI framework improves performance in sub-tasks requiring broad scene
understanding by approximately 47% across 3 tasks, confirming the effectiveness
of our approach in expanding the range of feasible manipulation tasks that can
be learned using handheld gripper systems, without compromising the
cross-embodiment advantages inherent to such systems.
Ссылки и действия
Дополнительные ресурсы: