MV-UMI: A Scalable Multi-View Interface for Cross-Embodiment Learning

2509.18757v1 cs.RO, cs.AI 2025-09-25
Авторы:

Omar Rayyan, John Abanes, Mahmoud Hafez, Anthony Tzes, Fares Abu-Dakka

Резюме на русском

## Контекст Развитие имитационного обучения позволило создавать прочные политики манипуляций роботов на основе демонстраций. Однако это возможно только при наличии разнообразных и качественных данных, которые трудно и дорого собираются, а также часто ограничены одним конкретным оборудованием. Мобильные портативные грипперы стали альтернативой традиционным методам телеоперации за счет интуитивности и масштабируемости. Однако они ограничены односторонним фокусом на первого лица, что существенно ограничивает контекстные сцены. Мы предлагаем MV-UMI (Multi-View Universal Manipulation Interface), фреймворк, который объединяет третьего лица и первого лица виды для улучшения понимания сцены. ## Метод MV-UMI (Multi-View Universal Manipulation Interface) интегрирует виды из третьего лица и первого лица для расширения контекста. Он использует технологии синтеза вида с нескольких камер, чтобы обеспечить полностью подвижное изображение. Это позволяет уточнить контекстные детали в рамках одного изображения, улучшая удобство и точность. Метод основывается на данных, собранных с помощью портативных грипперов, и использует универсальный подход для обработки сцен. ## Результаты Для измерения эффективности были проведены эксперименты на 3 задачах, включая передвижение и работу с предметами. Результаты показали улучшение подсубзадач, требующих широкого понимания сцены, на 47% по сравнению с базовым подходом. Это подтверждает эффективность фреймворка в расширении области задач, которые могут быть выполнены с помощью грипперов, не уменьшая преимуществ подхода. ## Значимость Наша работа может быть применена в различных областях, включая автоматизацию, упаковку и производство. Она экономична и масштабируема, а её интеграция с портативными грипперами открывает новые возможности для обучения роботу. Это может привести к более эффективному использованию технологий в различных сферах. ## Выводы Наш фреймворк MV-UMI демонстрирует улучшение качества и мощности систем имитационного обучения. Мы призываем к дальнейшим исследованиям в области расширения карты контекста и созданию более универсальных моделей для повышения точности и производительности роботов.

Abstract

Recent advances in imitation learning have shown great promise for developing robust robot manipulation policies from demonstrations. However, this promise is contingent on the availability of diverse, high-quality datasets, which are not only challenging and costly to collect but are often constrained to a specific robot embodiment. Portable handheld grippers have recently emerged as intuitive and scalable alternatives to traditional robotic teleoperation methods for data collection. However, their reliance solely on first-person view wrist-mounted cameras often creates limitations in capturing sufficient scene contexts. In this paper, we present MV-UMI (Multi-View Universal Manipulation Interface), a framework that integrates a third-person perspective with the egocentric camera to overcome this limitation. This integration mitigates domain shifts between human demonstration and robot deployment, preserving the cross-embodiment advantages of handheld data-collection devices. Our experimental results, including an ablation study, demonstrate that our MV-UMI framework improves performance in sub-tasks requiring broad scene understanding by approximately 47% across 3 tasks, confirming the effectiveness of our approach in expanding the range of feasible manipulation tasks that can be learned using handheld gripper systems, without compromising the cross-embodiment advantages inherent to such systems.

Ссылки и действия