Multi-Embodiment Locomotion at Scale with extreme Embodiment Randomization
2509.02815v1
cs.RO, cs.LG
2025-09-05
Авторы:
Nico Bohlinger, Jan Peters
Резюме на русском
## Контекст
Исследование сосредоточено на развитии общей политики подвижности для многообразия легковушких роботов жесткого конструктива. Область задачи нейросетевых политик на уровне сенсорных-эффекторов (NN-POLA) включает в себя поиск эффективных решений для управления роботов с различными физическими характеристиками. Существующий подход сталкивается с рядом проблем, включая необходимость настройки политики для каждого конкретного робота, ограниченность в обработке ряда сенсорных и эффекторных параметров, а также невозможность достижения высокой нормализации между различными моделями. Мотивация заключается в развитии универсального подхода, который может работать с многообразием физических характеристик роботов без предварительной настройки.
## Метод
Предлагаемая методология основывается на сочетании двух ключевых компонентов. Во-первых, использована усовершенствованная версия архитектуры URMAv1, которая включает в себя трехслойную рекуррентную нейронную сеть (GRU) с внедрением параметров эмбодимента. Во-вторых, разработана стратегия подвижности, основанная на подходе к курсиву (curriculum-based), которая позволяет обучаться в условиях сильной рандомизации морфологии робота. Эта стратегия отталкивается от прогресса в решении задач, чтобы гарантировать эффективное обучение в условиях высокой локальной рандомизации. Таким образом, архитектура и метод объединяются для обеспечения универсальной политики подвижности, которая может работать с множеством значительно различающихся морфологических характеристик роботов.
## Результаты
Использовались 50 различных моделей легковушких роботов с различными физическими характеристиками. Набор используемых данных включал в себя обучающиеся и тестовые выборки, представляющие собой различные ситуации подвижности и ситуации с рандомизацией морфологии. Результаты показали, что политика подвижности может успешно управлять различными моделями без предварительной настройки. Также были проведены эксперименты с реальными роботами, включая humanoid-роботов и quadruped-роботов, продемонстрировав значительную надежность и точность управления в реальной среде.
## Значимость
Предлагаемый подход имеет широкие области применения в сфере робототехники, в частности в управлении легковушким роботами. Он может быть применен в реальных ситуациях, где необходимо гибкое и точное управление роботами, необходимостью которых возникает в таких областях, как поиск-и-спасение, интеллектуальная автоматизация производств, и других. Выгодной особенностью является то,
Abstract
We present a single, general locomotion policy trained on a diverse
collection of 50 legged robots. By combining an improved embodiment-aware
architecture (URMAv2) with a performance-based curriculum for extreme
Embodiment Randomization, our policy learns to control millions of
morphological variations. Our policy achieves zero-shot transfer to unseen
real-world humanoid and quadruped robots.
Ссылки и действия
Дополнительные ресурсы: