Learning to Walk with Less: a Dyna-Style Approach to Quadrupedal Locomotion
2509.06296v1
cs.RO, cs.AI
2025-09-10
Авторы:
Francisco Affonso, Felipe Andrade G. Tommaselli, Juliano Negri, Vivian S. Medeiros, Mateus V. Gasparino, Girish Chowdhary, Marcelo Becker
Резюме на русском
## Контекст
Перемещение на поверхности для роботов-квадрупеделей — это задача, которая требует высокой точности и эффективности. Традиционные методы, основанные на работе с реальным окружением, требуют большого количества интеракций, что чревато высокими затратами времени и ресурсов. Для уменьшения затрат и улучшения эффективности в процессе обучения предлагается использовать модели-основы (model-based), которые позволяют сгенерировать дополнительные данные с помощью аппаративной модели. Такие подходы, основанные на Dyna-Style, уже применяются в сфере роботов-четвероногих, но в нашей работе мы хотим показать, как эта модель может быть использована в контексте двустороннего обучения (PPO-based controllers), чтобы существенно улучшить показатели данной задачи.
## Метод
Мы предлагаем Dyna-Style MBRL-фреймворк, который добавляет синтетические данные к результатам собственных роллаутов в PPO-based controllers. Генерируемые моделью краткосрочные промежуточные состояния встраиваются в роллауты с помощью специальной стратегии, которая настраивается на основе итераций обновления политики. Затем оценивается вклад синтетических данных в обучение. Для абляционного анализа было проверено, как разный длительности роллаутов влияет на эффективность обучения. Это позволило оптимизировать нашу стратегию и улучшить показатели по мере оптимизации.
## Результаты
Для проверки фреймворка использовались модели робота Unitree Go1 в симуляционной среде. Мы сравнили стандартные роллауты с теми, в которых часть шагов заменена синтетическими данными. Результаты показали, что роллауты с синтетическими данными дают лучшую политику и снижают её вариацию. На основе этих результатов мы проверили возможность нашего подхода для различных помех, таких как различные цели движения и трудные условия. Результаты показали, что такой подход может быть применен к различным роботам и типам объектов, даже в условиях сильных внешних воздействий.
## Значимость
Наш подход может быть применен в сфере мобильных роботов, в частности, для обучения роботов-квадрупеделей. Он позволяет улучшить эффективность обучения, уменьшив необходимое количество интеракций в симуляционном окружении. Это повышает точность и позволяет быстрее достичь устойчивой политики для передвижения. Таким образом, наш подход может сильно повлиять на развитие робототехники и упростить применение роботов в реальной жизни, в частности для поиска, экспедиций и даже в роли беспилотных транспортных средств.
## Выводы
Мы показали, что Dyna-Style MBRL-фреймворк может эффективно улучшить обучение роботов-квадрупеделей для преодоления различных препятстви
Abstract
Traditional RL-based locomotion controllers often suffer from low data
efficiency, requiring extensive interaction to achieve robust performance. We
present a model-based reinforcement learning (MBRL) framework that improves
sample efficiency for quadrupedal locomotion by appending synthetic data to the
end of standard rollouts in PPO-based controllers, following the Dyna-Style
paradigm. A predictive model, trained alongside the policy, generates
short-horizon synthetic transitions that are gradually integrated using a
scheduling strategy based on the policy update iterations. Through an ablation
study, we identified a strong correlation between sample efficiency and rollout
length, which guided the design of our experiments. We validated our approach
in simulation on the Unitree Go1 robot and showed that replacing part of the
simulated steps with synthetic ones not only mimics extended rollouts but also
improves policy return and reduces variance. Finally, we demonstrate that this
improvement transfers to the ability to track a wide range of locomotion
commands using fewer simulated steps.
Ссылки и действия
Дополнительные ресурсы: