HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba
2509.18046v1
cs.RO, cs.AI, cs.ET, cs.SY, eess.SP, eess.SY
2025-09-24
Авторы:
Yinuo Wang, Yuanyang Qi, Jinzhao Zhou, Gavin Tao
Резюме на русском
## Контекст
Управление жесткостью и мобильностью роботов-антропоморфных (humanoid) — важной задачей в робототехнике, поскольку она позволяет этим системам выполнять сложные ролевые и промышленные задачи. Однако создание эффективных алгоритмов управления для таких роботов сложно ввиду сложности моделирования их поведения, высокой степени связи габаритов, и избыточного числа степеней свободы. Настоящая работа фокусируется на использовании глубокого аппарата reinforcement learning (RL), в частности, end-to-end RL, для решения проблем эффективности, стабильности и экономичности управления.
## Метод
В центре работы лежит HuMam — современная технология по управлению движением роботов с использованием end-to-end RL. HuMam включает в себя разработанный Mamba encoder, который объединяет состояние робота и цели по шагам в синтетическое представление состояния. Это позволяет упростить процесс решения задач управления. Работа глубокой нейронной сети оптимизируется с помощью алгоритма PPO (Proximal Policy Optimization), который обеспечивает стабильный и эффективный обучение. Управляющий сигнал — это положение суставов робота, которые затем реализуются через низкоуровневый PD-регулятор. Алгоритму также внедрена наградная система, которая стимулирует эффективное и энергосберегающее поведение робота.
## Результаты
Авторы проводили эксперименты на модели humanoid-робота JVRC-1 в среде mc-mujoco. Они сравнили HuMam с другими подходами по метрикам эффективности обучения, стабильности, энергоэффективности и качества движения. Результаты показали, что HuMam находится в лидирующем положении по всем этим параметрам. Он сокращает время обучения, уменьшает энергопотребление и увеличивает качество движения. Эти результаты достигаются благодаря компактной архитектуре, эффективной интеграции входных данных и оптимальному оптимизатору PPO.
## Значимость
Разработанная система HuMam открывает новые возможности для управления мобильностью роботов-антропоморфных. Ее можно применять в различных областях, включая промышленность, исследования и медицину. Особый акцент ставится на высокую экономичность и устойчивость, которые HuMam обеспечивает. Будущие работы будут нацелены на доработку моделей, внедрение более сложных задач и улучшение экономичности решения.
## Выводы
HuMam представляет собой новую модель управления, основанную на end-to-end RL и использующую Mamba как модель синтеза состояний. Она показала значительные выигрыши в эффективности, стабильности и энергоэффективности по сравнению с существующими подходами. В дальнейшем, разработчики планируют расширить возможности HuMam, внедрив
Abstract
End-to-end reinforcement learning (RL) for humanoid locomotion is appealing
for its compact perception-action mapping, yet practical policies often suffer
from training instability, inefficient feature fusion, and high actuation cost.
We present HuMam, a state-centric end-to-end RL framework that employs a
single-layer Mamba encoder to fuse robot-centric states with oriented footstep
targets and a continuous phase clock. The policy outputs joint position targets
tracked by a low-level PD loop and is optimized with PPO. A concise six-term
reward balances contact quality, swing smoothness, foot placement, posture, and
body stability while implicitly promoting energy saving. On the JVRC-1 humanoid
in mc-mujoco, HuMam consistently improves learning efficiency, training
stability, and overall task performance over a strong feedforward baseline,
while reducing power consumption and torque peaks. To our knowledge, this is
the first end-to-end humanoid RL controller that adopts Mamba as the fusion
backbone, demonstrating tangible gains in efficiency, stability, and control
economy.