AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning
2508.07626v1
cs.CV, cs.RO
2025-08-13
Авторы:
Dejie Yang, Zijing Zhao, Yang Liu
Резюме на русском
#### Контекст
Visual Robot Manipulation (VRM) — это область исследований, которая ставит перед собой целью возможность управления роботом с помощью естественного языка, исходя из его текущего состояния и визуальных наблюдений. Однако возникают сложности с получением достаточного объема мультимодальных данных, необходимых для обучения эффективных моделей. Большинство существующих подходов используют предварительное обучение на больших объемах визуально-языковых данных, которые носят откровенно "веб-научный" характер, несовместимый с конкретными робототехническими задачами. Таким образом, эти модели страдают от ограниченной общеуниверсальности и слабой устойчивости при недостаточных робототехнических данных. Мы предлагаем новый подход — AR-VRM (Analogical Reasoning для Visual Robot Manipulation) — чтобы сузить расстояние между роботом и человеком через явное иммитационное обучение на основе видео с людьми.
#### Метод
AR-VRM основывается на процессе имитационного обучения, но с фокусом на действиях рук. Мы реализовали ключевой этап — **Keypoint Vision-Language Model (VLM) pretraining** — чтобы модель могла выучивать человеческие движения и предсказывать координаты ключевых точек рук. Это позволяет роботу не только следовать подвижным инструкциям, но и понять физические паттерны движений. Во время переквалификации на робот, мы предлагаем **Analogical Reasoning (AR) map**, которая позволяет сопоставлять человеческие ключевые точки с соответствующими компонентами робота. Этот подход дает возможность заставить роботизированную руку выполнять действия, похожие на те, что увидел человек в демонстрационных видео. Таким образом, AR-VRM предлагает более новый подход к обучению визуальной робототехнической манипуляции.
#### Результаты
Мы провели эксперименты на CALVIN-benchmark, а также в реальном мире. Наш подход показал значительное превосходство по сравнению с другими методами, особенно при небольших объемах робототехнических данных. В сценариях с небольшим количеством выборок, AR-VRM показал себя значительно лучше, чем предыдущие модели, что подтверждает эффективность иммитации человеческих действий в условиях нехватки данных. Это подтверждает, что мы удачно снизили зависимость от больших робототехнических данных.
#### Значимость
Мы предлагаем новый подход к обучению визуальной робототехнической манипуляции, который может использоваться в различных сферах, включая домашние роботы, промышленные роботы и устройства с высоким уровнем интеграции с человеком. Наш подход позволяет снизить затраты на робототехнические данные, повысить устойчивость моделей и улучшить естественность взаимодей
Abstract
Visual Robot Manipulation (VRM) aims to enable a robot to follow natural
language instructions based on robot states and visual observations, and
therefore requires costly multi-modal data. To compensate for the deficiency of
robot data, existing approaches have employed vision-language pretraining with
large-scale data. However, they either utilize web data that differs from
robotic tasks, or train the model in an implicit way (e.g., predicting future
frames at the pixel level), thus showing limited generalization ability under
insufficient robot data. In this paper, we propose to learn from large-scale
human action video datasets in an explicit way (i.e., imitating human actions
from hand keypoints), introducing Visual Robot Manipulation with Analogical
Reasoning (AR-VRM). To acquire action knowledge explicitly from human action
videos, we propose a keypoint Vision-Language Model (VLM) pretraining scheme,
enabling the VLM to learn human action knowledge and directly predict human
hand keypoints. During fine-tuning on robot data, to facilitate the robotic arm
in imitating the action patterns of human motions, we first retrieve human
action videos that perform similar manipulation tasks and have similar
historical observations , and then learn the Analogical Reasoning (AR) map
between human hand keypoints and robot components. Taking advantage of focusing
on action keypoints instead of irrelevant visual cues, our method achieves
leading performance on the CALVIN benchmark {and real-world experiments}. In
few-shot scenarios, our AR-VRM outperforms previous methods by large margins ,
underscoring the effectiveness of explicitly imitating human actions under data
scarcity.
Ссылки и действия
Дополнительные ресурсы: