Reduced-Order Model-Guided Reinforcement Learning for Demonstration-Free Humanoid Locomotion

2509.19023v1 cs.RO, cs.AI 2025-09-25

Авторы:

Shuai Liu, Meng Cheng Lau

Резюме на русском

## Контекст Основной объект исследования — развитие эффективных алгоритмов для нормализации ходьбы людского подобия (humanoid robot). Традиционно, эти задачи требуют значительных вычислительных ресурсов и относительно трудоемкого обучения с помощью моделирования тела и набора больших объемов данных. Исследователи столкнулись с проблемами, связанными с необходимостью тщательной подготовки данных и сложной верификацией требуемых результатов. Эти факторы способствовали развитию методов, уменьшающих затраты ресурсов и улучшающих точность. В данной работе вводится Reduced-Order Model-Guided Reinforcement Learning (ROM-GRL), которая значительно упрощает процесс обучения моделей ходьбы человеческого подобия без необходимости использования внешних данных или затрат на моделирование. ## Метод ROM-GRL представляет собой двухстадийный подход. В первой стадии строится компактная модель с четырьмя степенями свободы (4-DOF) через алгоритм Proximal Policy Optimization (PPO). Эта модель генерирует энергоэффективные шаблоны ходьбы. На второй стадии эти траектории используются для обучения политики полного тела с использованием Soft Actor-Critic (SAC), администрируемого внешним дискриминатором. Это позволяет установить гауссовую функцию распределения шага, соответствующую модели-учителю. Таким образом, ROM-GRL способствует эффективному распределению весов в политике, благодаря чему модель получает навыки ходьбы с меньшим потреблением ресурсов. ## Результаты Исследователи проводили эксперименты с моделью в разных скоростях — 1 и 4 м/с. В результате, ROM-GRL достигла значительного повышения точности работы модели, снизившей ошибку отслеживания и достигла более стабильных и симметричных ходьб. Эти результаты отличаются от традиционных подходов, которые часто лишаются такого простотного и эффективного метода. ## Значимость Помимо значительного сокращения ресурсов и улучшения качества ходьбы, ROM-GRL может применяться в разных областях, включая автоматизацию и робототехнику. Отличительным преимуществом является то, что модель не требует дорогостоящих данных или ручных интервенций для настройки. Это делает ROM-GRL универсальным инструментом для развития систем ходьбы без повторений или интервальных интервалов. ## Выводы Результаты ROM-GRL показывают, что этот подход является выгодным для генерации энергоэффективных ходьб для humanoid robots. В дальнейшем исследования будут направлены на усовершенствование ROM-GRL, включая расширение гибкости модели и повышение уровня надежности в многообразных условиях. Это может привести к развитию новых возможностей в робототехнич

Abstract

We introduce Reduced-Order Model-Guided Reinforcement Learning (ROM-GRL), a two-stage reinforcement learning framework for humanoid walking that requires no motion capture data or elaborate reward shaping. In the first stage, a compact 4-DOF (four-degree-of-freedom) reduced-order model (ROM) is trained via Proximal Policy Optimization. This generates energy-efficient gait templates. In the second stage, those dynamically consistent trajectories guide a full-body policy trained with Soft Actor--Critic augmented by an adversarial discriminator, ensuring the student's five-dimensional gait feature distribution matches the ROM's demonstrations. Experiments at 1 meter-per-second and 4 meter-per-second show that ROM-GRL produces stable, symmetric gaits with substantially lower tracking error than a pure-reward baseline. By distilling lightweight ROM guidance into high-dimensional policies, ROM-GRL bridges the gap between reward-only and imitation-based locomotion methods, enabling versatile, naturalistic humanoid behaviors without any human demonstrations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Reduced-Order Model-Guided Reinforcement Learning for Demonstration-Free Humanoid Locomotion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация