Learning to Walk with Less: a Dyna-Style Approach to Quadrupedal Locomotion

2509.06296v1 cs.RO, cs.AI 2025-09-10
Авторы:

Francisco Affonso, Felipe Andrade G. Tommaselli, Juliano Negri, Vivian S. Medeiros, Mateus V. Gasparino, Girish Chowdhary, Marcelo Becker

Резюме на русском

## Контекст Перемещение на поверхности для роботов-квадрупеделей — это задача, которая требует высокой точности и эффективности. Традиционные методы, основанные на работе с реальным окружением, требуют большого количества интеракций, что чревато высокими затратами времени и ресурсов. Для уменьшения затрат и улучшения эффективности в процессе обучения предлагается использовать модели-основы (model-based), которые позволяют сгенерировать дополнительные данные с помощью аппаративной модели. Такие подходы, основанные на Dyna-Style, уже применяются в сфере роботов-четвероногих, но в нашей работе мы хотим показать, как эта модель может быть использована в контексте двустороннего обучения (PPO-based controllers), чтобы существенно улучшить показатели данной задачи. ## Метод Мы предлагаем Dyna-Style MBRL-фреймворк, который добавляет синтетические данные к результатам собственных роллаутов в PPO-based controllers. Генерируемые моделью краткосрочные промежуточные состояния встраиваются в роллауты с помощью специальной стратегии, которая настраивается на основе итераций обновления политики. Затем оценивается вклад синтетических данных в обучение. Для абляционного анализа было проверено, как разный длительности роллаутов влияет на эффективность обучения. Это позволило оптимизировать нашу стратегию и улучшить показатели по мере оптимизации. ## Результаты Для проверки фреймворка использовались модели робота Unitree Go1 в симуляционной среде. Мы сравнили стандартные роллауты с теми, в которых часть шагов заменена синтетическими данными. Результаты показали, что роллауты с синтетическими данными дают лучшую политику и снижают её вариацию. На основе этих результатов мы проверили возможность нашего подхода для различных помех, таких как различные цели движения и трудные условия. Результаты показали, что такой подход может быть применен к различным роботам и типам объектов, даже в условиях сильных внешних воздействий. ## Значимость Наш подход может быть применен в сфере мобильных роботов, в частности, для обучения роботов-квадрупеделей. Он позволяет улучшить эффективность обучения, уменьшив необходимое количество интеракций в симуляционном окружении. Это повышает точность и позволяет быстрее достичь устойчивой политики для передвижения. Таким образом, наш подход может сильно повлиять на развитие робототехники и упростить применение роботов в реальной жизни, в частности для поиска, экспедиций и даже в роли беспилотных транспортных средств. ## Выводы Мы показали, что Dyna-Style MBRL-фреймворк может эффективно улучшить обучение роботов-квадрупеделей для преодоления различных препятстви

Abstract

Traditional RL-based locomotion controllers often suffer from low data efficiency, requiring extensive interaction to achieve robust performance. We present a model-based reinforcement learning (MBRL) framework that improves sample efficiency for quadrupedal locomotion by appending synthetic data to the end of standard rollouts in PPO-based controllers, following the Dyna-Style paradigm. A predictive model, trained alongside the policy, generates short-horizon synthetic transitions that are gradually integrated using a scheduling strategy based on the policy update iterations. Through an ablation study, we identified a strong correlation between sample efficiency and rollout length, which guided the design of our experiments. We validated our approach in simulation on the Unitree Go1 robot and showed that replacing part of the simulated steps with synthetic ones not only mimics extended rollouts but also improves policy return and reduces variance. Finally, we demonstrate that this improvement transfers to the ability to track a wide range of locomotion commands using fewer simulated steps.

Ссылки и действия