Multi-Embodiment Locomotion at Scale with extreme Embodiment Randomization

2509.02815v1 cs.RO, cs.LG 2025-09-05
Авторы:

Nico Bohlinger, Jan Peters

Резюме на русском

## Контекст Исследование сосредоточено на развитии общей политики подвижности для многообразия легковушких роботов жесткого конструктива. Область задачи нейросетевых политик на уровне сенсорных-эффекторов (NN-POLA) включает в себя поиск эффективных решений для управления роботов с различными физическими характеристиками. Существующий подход сталкивается с рядом проблем, включая необходимость настройки политики для каждого конкретного робота, ограниченность в обработке ряда сенсорных и эффекторных параметров, а также невозможность достижения высокой нормализации между различными моделями. Мотивация заключается в развитии универсального подхода, который может работать с многообразием физических характеристик роботов без предварительной настройки. ## Метод Предлагаемая методология основывается на сочетании двух ключевых компонентов. Во-первых, использована усовершенствованная версия архитектуры URMAv1, которая включает в себя трехслойную рекуррентную нейронную сеть (GRU) с внедрением параметров эмбодимента. Во-вторых, разработана стратегия подвижности, основанная на подходе к курсиву (curriculum-based), которая позволяет обучаться в условиях сильной рандомизации морфологии робота. Эта стратегия отталкивается от прогресса в решении задач, чтобы гарантировать эффективное обучение в условиях высокой локальной рандомизации. Таким образом, архитектура и метод объединяются для обеспечения универсальной политики подвижности, которая может работать с множеством значительно различающихся морфологических характеристик роботов. ## Результаты Использовались 50 различных моделей легковушких роботов с различными физическими характеристиками. Набор используемых данных включал в себя обучающиеся и тестовые выборки, представляющие собой различные ситуации подвижности и ситуации с рандомизацией морфологии. Результаты показали, что политика подвижности может успешно управлять различными моделями без предварительной настройки. Также были проведены эксперименты с реальными роботами, включая humanoid-роботов и quadruped-роботов, продемонстрировав значительную надежность и точность управления в реальной среде. ## Значимость Предлагаемый подход имеет широкие области применения в сфере робототехники, в частности в управлении легковушким роботами. Он может быть применен в реальных ситуациях, где необходимо гибкое и точное управление роботами, необходимостью которых возникает в таких областях, как поиск-и-спасение, интеллектуальная автоматизация производств, и других. Выгодной особенностью является то,

Abstract

We present a single, general locomotion policy trained on a diverse collection of 50 legged robots. By combining an improved embodiment-aware architecture (URMAv2) with a performance-based curriculum for extreme Embodiment Randomization, our policy learns to control millions of morphological variations. Our policy achieves zero-shot transfer to unseen real-world humanoid and quadruped robots.

Ссылки и действия