TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning
2509.11839v2
cs.RO, cs.CV
2025-09-18
Авторы:
Jiacheng Liu, Pengxiang Ding, Qihang Zhou, Yuxuan Wu, Da Huang, Zimian Peng, Wei Xiao, Weinan Zhang, Lixin Yang, Cewu Lu, Donglin Wang
Резюме на русском
#### Контекст
Проблема ограниченной доступности высококачественных демонстраций все еще остается значимым препятствием для обучения эффективных моделей Vision-Language-Action (VLA) в робототехнике. Эта проблема усложняется при работе с бипедными роботами, так как для их применения требуется большое количество качественных данных. Многие существующие модели, в том числе визуально-языковые модели, способны работать в разных средах, но страдают от неэффективности при переносе на новые роботы. Это способствует необходимости создания универсальных методов, позволяющих эффективно переносить модели между различными роботами с минимальными изменениями.
#### Метод
TrajBooster представляет собой модель, которая использует многочисленные данные, собранные на большом количестве бипедных роботов, для повышения производительности моделей VLA. Основная идея заключается в использовании траекторий конечных действительностей (end-effector trajectories) в качестве морфологически независимого интерфейса. Для этого TrajBooster (i) извлекает 6D траектории конечных действительностей двух рук с большого количества данных, собранных у бипедных роботов, (ii) переносит эти траектории в симулятор, используя целевой робот Unitree G1 с внедренным цельным центральным управляющим устройством, который может выравнивать недостаточное количество данных в достаточное для задания целей, и (iii) создает гетерогенные тройки, объединяющие исходные данные визуальных и языковых сигналов с робото-совместимыми действиями, чтобы обучить модель VLA. Этот подход позволяет существенно снизить необходимость в ограниченных данных для целевого робота, увеличивая продолжительность первоначального этапа обучения.
#### Результаты
После применения TrajBooster к Unitree G1 было получено улучшение производительности моделей VLA в сравнении с текущими подходами. Эта модель была успешно развернута на Unitree G1, где она удовлетворительно выполняла задачи в бытовой среде, включая квадрупиду, перекрытие высоты и организацию целей. Эксперименты показали, что TrajBooster не только существенно улучшил уровень общности и надёжности, но и позволил значительно сократить необходимость в ручном управлении роботом в ходе обучения. Эта модель позволила повысить производительность бипедных роботов в сравнении с другими методами, используя только небольшое количество данных.
#### Значимость
Метод TrajBooster имеет широкие применения в сфере робототехники, в том числе в бытовой робототехнике, бытовой робототехнике с производственными целями, а также в сфере здравоохранения. Он может быть использован для улучшения представления роботов во время заданий, предоставляя более точные и надёжные
Abstract
Recent Vision-Language-Action models show potential to generalize across
embodiments but struggle to quickly align with a new robot's action space when
high-quality demonstrations are scarce, especially for bipedal humanoids. We
present TrajBooster, a cross-embodiment framework that leverages abundant
wheeled-humanoid data to boost bipedal VLA. Our key idea is to use end-effector
trajectories as a morphology-agnostic interface. TrajBooster (i) extracts 6D
dual-arm end-effector trajectories from real-world wheeled humanoids, (ii)
retargets them in simulation to Unitree G1 with a whole-body controller trained
via a heuristic-enhanced harmonized online DAgger to lift low-dimensional
trajectory references into feasible high-dimensional whole-body actions, and
(iii) forms heterogeneous triplets that couple source vision/language with
target humanoid-compatible actions to post-pre-train a VLA, followed by only 10
minutes of teleoperation data collection on the target humanoid domain.
Deployed on Unitree G1, our policy achieves beyond-tabletop household tasks,
enabling squatting, cross-height manipulation, and coordinated whole-body
motion with markedly improved robustness and generalization. Results show that
TrajBooster allows existing wheeled-humanoid data to efficiently strengthen
bipedal humanoid VLA performance, reducing reliance on costly same-embodiment
data while enhancing action space understanding and zero-shot skill transfer
capabilities. For more details, For more details, please refer to our
\href{https://jiachengliu3.github.io/TrajBooster/}.
Ссылки и действия
Дополнительные ресурсы: