RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking

2509.20717v1 cs.RO, cs.AI 2025-09-26
Авторы:

Zhenguo Sun, Yibo Peng, Yuan Meng, Xukun Li, Bo-Sheng Huang, Zhenshan Bing, Xinlong Wang, Alois Knoll

Резюме на русском

#### Контекст Управление движением роботизированных роботов-трапецистов — одно из самых сложных и актуальных заданий в области машинного обучения и робототехники. Особенности данной области заключаются в том, что требуется высокая точность позиционирования и контроль динамики движений для выполнения сложных и динамичных задач. Однако, существующие подходы сталкиваются с проблемами, такими как зависимость от моделей, ошибки накопления и сложность в реальном времени. Эти проблемы приводят к проблемам в достижении высокого уровня точности и надёжности в движении. #### Метод Предлагаемый подход, RobotDancing, основан на методе резидентных действий в рамках обобщённого опыта обучения. Он предполагает использование нейронных сетей, которые предсказывают резидентные результаты вместо абсолютных значений управления. Это позволяет значительно улучшить точность и уменьшить погрешность накопления. Метод предлагает интегрированную архитектуру, включающую в себя алгоритм обучения, параметры регуляризации и методы передачи на реальную машину. Это гарантирует стабильность и эффективность в различных условиях. #### Результаты Запуски проводились на модели Unitree G1 с помощью retargeted LAFAN1 dance sequences. Результаты показали высокую точность в отслеживании движений, в том числе высоко-динамических, таких как прыжки, вращения и карвинги. Было продемонстрировано возможность трансфера симуляции на реальную машину без дополнительных подготовительных этапов. Особенностью результатов является то, что система может работать в реальном времени, даже при продолжительности движения до нескольких минут. #### Значимость Предложенный подход имеет широкие применения в робототехнике, в том числе для создания управления движением роботов-трапецистов и других систем динамического движения. Он обеспечивает высокую точность, надёжность и эффективность работы в реальном времени. Это может привести к развитию новых технологий в области систем управления, повышение точности в исполнении возможностей киберфизических систем, а также открытие новых возможностей в гуман-робот интеракции. #### Выводы Результаты показывают, что RobotDancing является перспективным подходом для решения проблем управления движением роботов-трапецистов. В будущем планируется расширить область применения, улучшив подходы к работе с ошибками и увеличив производительность. Направление будущих исследований также будет связано с оптимизацией алгоритмов и исследованием возможностей работы в сложных физических условиях.

Abstract

Long-horizon, high-dynamic motion tracking on humanoids remains brittle because absolute joint commands cannot compensate model-plant mismatch, leading to error accumulation. We propose RobotDancing, a simple, scalable framework that predicts residual joint targets to explicitly correct dynamics discrepancies. The pipeline is end-to-end--training, sim-to-sim validation, and zero-shot sim-to-real--and uses a single-stage reinforcement learning (RL) setup with a unified observation, reward, and hyperparameter configuration. We evaluate primarily on Unitree G1 with retargeted LAFAN1 dance sequences and validate transfer on H1/H1-2. RobotDancing can track multi-minute, high-energy behaviors (jumps, spins, cartwheels) and deploys zero-shot to hardware with high motion tracking quality.

Ссылки и действия