TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning

2509.11839v2 cs.RO, cs.CV 2025-09-18
Авторы:

Jiacheng Liu, Pengxiang Ding, Qihang Zhou, Yuxuan Wu, Da Huang, Zimian Peng, Wei Xiao, Weinan Zhang, Lixin Yang, Cewu Lu, Donglin Wang

Резюме на русском

#### Контекст Проблема ограниченной доступности высококачественных демонстраций все еще остается значимым препятствием для обучения эффективных моделей Vision-Language-Action (VLA) в робототехнике. Эта проблема усложняется при работе с бипедными роботами, так как для их применения требуется большое количество качественных данных. Многие существующие модели, в том числе визуально-языковые модели, способны работать в разных средах, но страдают от неэффективности при переносе на новые роботы. Это способствует необходимости создания универсальных методов, позволяющих эффективно переносить модели между различными роботами с минимальными изменениями. #### Метод TrajBooster представляет собой модель, которая использует многочисленные данные, собранные на большом количестве бипедных роботов, для повышения производительности моделей VLA. Основная идея заключается в использовании траекторий конечных действительностей (end-effector trajectories) в качестве морфологически независимого интерфейса. Для этого TrajBooster (i) извлекает 6D траектории конечных действительностей двух рук с большого количества данных, собранных у бипедных роботов, (ii) переносит эти траектории в симулятор, используя целевой робот Unitree G1 с внедренным цельным центральным управляющим устройством, который может выравнивать недостаточное количество данных в достаточное для задания целей, и (iii) создает гетерогенные тройки, объединяющие исходные данные визуальных и языковых сигналов с робото-совместимыми действиями, чтобы обучить модель VLA. Этот подход позволяет существенно снизить необходимость в ограниченных данных для целевого робота, увеличивая продолжительность первоначального этапа обучения. #### Результаты После применения TrajBooster к Unitree G1 было получено улучшение производительности моделей VLA в сравнении с текущими подходами. Эта модель была успешно развернута на Unitree G1, где она удовлетворительно выполняла задачи в бытовой среде, включая квадрупиду, перекрытие высоты и организацию целей. Эксперименты показали, что TrajBooster не только существенно улучшил уровень общности и надёжности, но и позволил значительно сократить необходимость в ручном управлении роботом в ходе обучения. Эта модель позволила повысить производительность бипедных роботов в сравнении с другими методами, используя только небольшое количество данных. #### Значимость Метод TrajBooster имеет широкие применения в сфере робототехники, в том числе в бытовой робототехнике, бытовой робототехнике с производственными целями, а также в сфере здравоохранения. Он может быть использован для улучшения представления роботов во время заданий, предоставляя более точные и надёжные

Abstract

Recent Vision-Language-Action models show potential to generalize across embodiments but struggle to quickly align with a new robot's action space when high-quality demonstrations are scarce, especially for bipedal humanoids. We present TrajBooster, a cross-embodiment framework that leverages abundant wheeled-humanoid data to boost bipedal VLA. Our key idea is to use end-effector trajectories as a morphology-agnostic interface. TrajBooster (i) extracts 6D dual-arm end-effector trajectories from real-world wheeled humanoids, (ii) retargets them in simulation to Unitree G1 with a whole-body controller trained via a heuristic-enhanced harmonized online DAgger to lift low-dimensional trajectory references into feasible high-dimensional whole-body actions, and (iii) forms heterogeneous triplets that couple source vision/language with target humanoid-compatible actions to post-pre-train a VLA, followed by only 10 minutes of teleoperation data collection on the target humanoid domain. Deployed on Unitree G1, our policy achieves beyond-tabletop household tasks, enabling squatting, cross-height manipulation, and coordinated whole-body motion with markedly improved robustness and generalization. Results show that TrajBooster allows existing wheeled-humanoid data to efficiently strengthen bipedal humanoid VLA performance, reducing reliance on costly same-embodiment data while enhancing action space understanding and zero-shot skill transfer capabilities. For more details, For more details, please refer to our \href{https://jiachengliu3.github.io/TrajBooster/}.

Ссылки и действия