GBC: Generalized Behavior-Cloning Framework for Whole-Body Humanoid Imitation
2508.09960v1
cs.RO, cs.AI, cs.LG
2025-08-15
Авторы:
Yifei Yao, Chengyuan Luo, Jiaheng Du, Wentao He, Jun-Guo Lu
Резюме на русском
## Контекст
Создание масштабируемых, универсальных управлений для роботов-человекоидов остается сложной проблемой в робототехнике. Известно, что существующие подходы часто привязаны к конкретной морфологии робота и требуют значительных усилий для переноса на другие модели. Это приводит к значительной утилизации ресурсов в испытаниях и адаптациях. Основная проблема заключается в том, что алгоритмы обучения с подкреплением (RL) и клонирования поведения (BC), которые являются стандартами в области роботов-человекоидов, не значительно продвинулись в сторону универсальности. Например, они часто привязаны к конкретным признакам морфологии робота или ограничиваются ограниченными наборами представлений данных. Более того, универсальные решения для поведения роботов-человекоидов требуют большого объема вычислительных мощностей и надежных методов трансфера. Однако эффективные, универсальные и открытые системы, удовлетворяющие этим требованиям, до сих пор недоступны. Здесь мы предлагаем **Generalized Behavior-Cloning Framework (GBC)**, чтобы закрыть эти пробелы.
## Метод
GBC представляет собой инновационную методологию, которая использует дифференцируемую сеть инверсного кинематического уравнения (Differentiable Inverse Kinematics, D-IK) для адаптивного перенаправления данных любого моделирования движения (MoCap) к любому роботу-человекоиду. Это значительно упрощает процесс подготовки данных. Далее, GBC использует новый алгоритм DAgger-MMPPO, который объединяет мета-метаполитику (Meta-Meta Policy Optimization, MM) с трансформером (MMTransformer) для обучения фидбека-ориентированных политик. Эти политики являются высокоточными и термодинамически стабильными. Благодаря универсальной архитектуре, GBC может обрабатывать различные типы роботов-человекоидов, включая модели с разным числом степеней свободы. Этот подход делает GBC высокоскоростным и надежным средством для генерации эффективных поведений роботов.
## Результаты
Мы проводили эксперименты на нескольких моделях роботов-человекоидов, включая модели с разным числом степеней свободы, чтобы продемонстрировать возможности GBC. Выяснилось, что GBC может тренировать высокоточные политики для разных моделей роботов-человекоидов без дополнительных маргинальных изменений в архитектуре. Мы также проверили способность GBC к трансферу усвоенных поведений на новые, ранее не встречавшиеся движения. Это подтвердило отличные результаты в поддержании стабильности и точности симуляций. Универсальный подход, предлагаемый GBC, показал себя как эффективный инструмент для создания роботов-человекоидов, которые могут поддержива
Abstract
The creation of human-like humanoid robots is hindered by a fundamental
fragmentation: data processing and learning algorithms are rarely universal
across different robot morphologies. This paper introduces the Generalized
Behavior Cloning (GBC) framework, a comprehensive and unified solution designed
to solve this end-to-end challenge. GBC establishes a complete pathway from
human motion to robot action through three synergistic innovations. First, an
adaptive data pipeline leverages a differentiable IK network to automatically
retarget any human MoCap data to any humanoid. Building on this foundation, our
novel DAgger-MMPPO algorithm with its MMTransformer architecture learns robust,
high-fidelity imitation policies. To complete the ecosystem, the entire
framework is delivered as an efficient, open-source platform based on Isaac
Lab, empowering the community to deploy the full workflow via simple
configuration scripts. We validate the power and generality of GBC by training
policies on multiple heterogeneous humanoids, demonstrating excellent
performance and transfer to novel motions. This work establishes the first
practical and unified pathway for creating truly generalized humanoid
controllers.
Ссылки и действия
Дополнительные ресурсы: