MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence

2508.13534v1 cs.RO, cs.AI, cs.CV 2025-08-21
Авторы:

Chao Tang, Anxing Xiao, Yuhong Deng, Tianrun Hu, Wenlong Dong, Hanbo Zhang, David Hsu, Hong Zhang

Резюме на русском

## Контекст В области робототехники, особенно в контексте визуально-моторного политического обучения, получение больших наборов данных для обучения моделей часто оказывается трудоемким и дорогостоящим. Одним из способов решения этой проблемы является имитация поведения человека, которое может быть получено из видео. Однако существуют существенные технические проблемы, включая учет различий в форме инструментов и поддержание эффективности при переходе от одного вида инструмента к другому. Эти проблемы ограничивают возможность роботов для универсального обучения и применения в реальных условиях. Наша работа адресует эти проблемы, предлагая новый подход к имитации человеческого поведения с помощью роботов. ## Метод Мы предлагаем **MimicFunc**, фреймворк, основанный на абстракции функциональных корреляций между инструментами. Наш алгоритм использует **function frame**, локальную функциональную систему координат, построенную на основе опорных точек, чтобы определить функциональные эквиваленты между инструментами. Эта методика позволяет роботу учитывать не только геометрические различия, но также функциональные тонкости между разными инструментами. Мы также применяем методы обучения с подкреплением для оптимизации поведения робота в процессе имитации. ## Результаты Мы провели эксперименты, используя различные виды инструментов, включая кухонные ножи, лопасти и другие. Данные для этих экспериментов были получены из RGB-D видео, которые позволили нам анализировать имитацию человеческих движений в различных условиях. Результаты показали, что наш подход эффективно обобщает человеческие движения на новые инструменты, даже когда существуют существенные различия в их форме. Также было продемонстрировано, что наша фреймворк может легко интегрироваться с методами обучения с подкреплением для последующего обучения визуально-моторных политик. ## Значимость МимикFunc открывает новые возможности для эффективного обучения роботов в различных сценариях, включая домашние роботы, медицинские приложения и промышленные задачи. Отличительные особенности этого подхода включают уменьшение количества требуемых данных для обучения, универсальность в работе с разными инструментами и экономию ресурсов при обучении. Наш подход может иметь значительное влияние на развитие робототехники, облегчив разработку новых приложений и улучшив эффективность в существующих задачах. ## Выводы Мы представили MimicFunc, фреймворк, который эффективно решает проблему имитации человеческих движений при использовании различных инструментов. Этот подход демонстрирует высокую универсальность и эффек

Abstract

Imitating tool manipulation from human videos offers an intuitive approach to teaching robots, while also providing a promising and scalable alternative to labor-intensive teleoperation data collection for visuomotor policy learning. While humans can mimic tool manipulation behavior by observing others perform a task just once and effortlessly transfer the skill to diverse tools for functionally equivalent tasks, current robots struggle to achieve this level of generalization. A key challenge lies in establishing function-level correspondences, considering the significant geometric variations among functionally similar tools, referred to as intra-function variations. To address this challenge, we propose MimicFunc, a framework that establishes functional correspondences with function frame, a function-centric local coordinate frame constructed with keypoint-based abstraction, for imitating tool manipulation skills. Experiments demonstrate that MimicFunc effectively enables the robot to generalize the skill from a single RGB-D human video to manipulating novel tools for functionally equivalent tasks. Furthermore, leveraging MimicFunc's one-shot generalization capability, the generated rollouts can be used to train visuomotor policies without requiring labor-intensive teleoperation data collection for novel objects. Our code and video are available at https://sites.google.com/view/mimicfunc.

Ссылки и действия