VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation

2509.20322v1 cs.RO, cs.CV, cs.LG 2025-09-26
Авторы:

Shaofeng Yin, Yanjie Ze, Hong-Xing Yu, C. Karen Liu, Jiajun Wu

Резюме на русском

## Контекст Visual humanoid loco-manipulation в неорганизованных средах требует синергетной интеграции эгацентрического визуального восприятия и целого-телакоммандования. Несмотря на развитие методологий, существующие подходы наиболее часто полагаются на внешние системы морфографического мониторинга или ограничиваются определенными типами задач. Это существенно ограничивает область применения и удобство использования современных робототехнических систем. Наша цель — разработать фреймворк, который бы стал альтернативой нынешним решениям, обеспечивая широкий спектр возможностей для решения локо-манипуляционных задач в различных условиях. ## Метод Мы предлагаем VisualMimic — визуальную симуляционную модель c целью перехода в реальную среду. Фреймворк включает две основные части: низкоуровневый трактор ключевых точек, обученный с использованием данных технологии teacher-student, и высокоуровневое управление, которое генерирует команды ключевых точек на основе визуальных и проприоцептивных данных. Для обеспечения стабильности обучения, мы вводим случайность в низкоуровневой политике и устанавливаем ограничения на действия высокоуровневой политики с помощью статистических данных о человеческих движениях. Этот подход позволяет использовать тренировочные данные из симуляционного окружения для выполнения реальных задач локо-манипуляции, таких как подъем ящика, подвижка предметов, ходьба с футбольной мячом и другие. ## Результаты Мы провести набор экспериментов, используя симуляционную модель, чтобы проверить эффективность VisualMimic. Наши политики были тестированы на различных типах локо-манипуляционных действий, включая значительно различные достижения, такие как подъем ящиков, пушкание футбольного мяча, и движение в условиях реальной среды. Результаты показали, что VisualMimic демонстрирует высокую точность в задачах визуальной мониторинга и целого-телакоммандования, обеспечивая значительное улучшение работы роботов в различных условиях. ## Значимость VisualMimic может быть применен в различных областях, включая робототехнику, роботизированные системы помощи в ситуациях неорганизованной среды, и возможность работы в сложных внешних условиях. Особенно выгодным является его применение в сфере роботов-помощников, позволяющих уменьшить нагрузку на человека в различных производственных и домашних сценариях. Визуальная система модели предоставляет значительные преимущества в ситуациях, где внешние мониторинговые системы не могут быть использованы. ## Выводы VisualMimic представляет собой новый подход к решению задач визуально

Abstract

Humanoid loco-manipulation in unstructured environments demands tight integration of egocentric perception and whole-body control. However, existing approaches either depend on external motion capture systems or fail to generalize across diverse tasks. We introduce VisualMimic, a visual sim-to-real framework that unifies egocentric vision with hierarchical whole-body control for humanoid robots. VisualMimic combines a task-agnostic low-level keypoint tracker -- trained from human motion data via a teacher-student scheme -- with a task-specific high-level policy that generates keypoint commands from visual and proprioceptive input. To ensure stable training, we inject noise into the low-level policy and clip high-level actions using human motion statistics. VisualMimic enables zero-shot transfer of visuomotor policies trained in simulation to real humanoid robots, accomplishing a wide range of loco-manipulation tasks such as box lifting, pushing, football dribbling, and kicking. Beyond controlled laboratory settings, our policies also generalize robustly to outdoor environments. Videos are available at: https://visualmimic.github.io .

Ссылки и действия