VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation
2509.20322v1
cs.RO, cs.CV, cs.LG
2025-09-26
Авторы:
Shaofeng Yin, Yanjie Ze, Hong-Xing Yu, C. Karen Liu, Jiajun Wu
Резюме на русском
## Контекст
Visual humanoid loco-manipulation в неорганизованных средах требует синергетной интеграции эгацентрического визуального восприятия и целого-телакоммандования. Несмотря на развитие методологий, существующие подходы наиболее часто полагаются на внешние системы морфографического мониторинга или ограничиваются определенными типами задач. Это существенно ограничивает область применения и удобство использования современных робототехнических систем. Наша цель — разработать фреймворк, который бы стал альтернативой нынешним решениям, обеспечивая широкий спектр возможностей для решения локо-манипуляционных задач в различных условиях.
## Метод
Мы предлагаем VisualMimic — визуальную симуляционную модель c целью перехода в реальную среду. Фреймворк включает две основные части: низкоуровневый трактор ключевых точек, обученный с использованием данных технологии teacher-student, и высокоуровневое управление, которое генерирует команды ключевых точек на основе визуальных и проприоцептивных данных. Для обеспечения стабильности обучения, мы вводим случайность в низкоуровневой политике и устанавливаем ограничения на действия высокоуровневой политики с помощью статистических данных о человеческих движениях. Этот подход позволяет использовать тренировочные данные из симуляционного окружения для выполнения реальных задач локо-манипуляции, таких как подъем ящика, подвижка предметов, ходьба с футбольной мячом и другие.
## Результаты
Мы провести набор экспериментов, используя симуляционную модель, чтобы проверить эффективность VisualMimic. Наши политики были тестированы на различных типах локо-манипуляционных действий, включая значительно различные достижения, такие как подъем ящиков, пушкание футбольного мяча, и движение в условиях реальной среды. Результаты показали, что VisualMimic демонстрирует высокую точность в задачах визуальной мониторинга и целого-телакоммандования, обеспечивая значительное улучшение работы роботов в различных условиях.
## Значимость
VisualMimic может быть применен в различных областях, включая робототехнику, роботизированные системы помощи в ситуациях неорганизованной среды, и возможность работы в сложных внешних условиях. Особенно выгодным является его применение в сфере роботов-помощников, позволяющих уменьшить нагрузку на человека в различных производственных и домашних сценариях. Визуальная система модели предоставляет значительные преимущества в ситуациях, где внешние мониторинговые системы не могут быть использованы.
## Выводы
VisualMimic представляет собой новый подход к решению задач визуально
Abstract
Humanoid loco-manipulation in unstructured environments demands tight
integration of egocentric perception and whole-body control. However, existing
approaches either depend on external motion capture systems or fail to
generalize across diverse tasks. We introduce VisualMimic, a visual sim-to-real
framework that unifies egocentric vision with hierarchical whole-body control
for humanoid robots. VisualMimic combines a task-agnostic low-level keypoint
tracker -- trained from human motion data via a teacher-student scheme -- with
a task-specific high-level policy that generates keypoint commands from visual
and proprioceptive input. To ensure stable training, we inject noise into the
low-level policy and clip high-level actions using human motion statistics.
VisualMimic enables zero-shot transfer of visuomotor policies trained in
simulation to real humanoid robots, accomplishing a wide range of
loco-manipulation tasks such as box lifting, pushing, football dribbling, and
kicking. Beyond controlled laboratory settings, our policies also generalize
robustly to outdoor environments. Videos are available at:
https://visualmimic.github.io .
Ссылки и действия
Дополнительные ресурсы: