Learning Terrain-Specialized Policies for Adaptive Locomotion in Challenging Environments
2509.20635v1
cs.RO, cs.AI
2025-09-26
Авторы:
Matheus P. Angarola, Francisco Affonso, Marcelo Becker
Резюме на русском
## Контекст
Легкоходные роботы широко применяются в сложных, неполностью известных ландшафтах, где успешное навигационное поведение требует высокой адаптивности и максимальной производительности. Однако, в ситуациях безупречной навигации, где информация о ландшафте недоступна, проблемы становятся еще более актуальными. Необходимость в непрерывной навигации в зонах неполного или недоступного видения делает задачу создания эффективной локомоционной стратегии актуальной и сложной. Обычно используемые общие политики, не ориентирующиеся на специфику ландшафта, проявляют узкий подход и относительную неэффективность. Мы предлагаем новый подход, основанный на изучении террана и улучшении локомоционных способностей, чтобы решить эту проблему.
## Метод
Наше решение основывается на гибридной архитектуре, включающей в себя терран-специализированные политики и технологию курсивного обучения, чтобы стимулировать улучшение локомоционных поведений. Мы использовали вспомогательные политики, которые были настроены для конкретных типов ландшафтов, включая грунт, ограждающие барьеры, водные поверхности. Эти политики были обучены с помощью курсивного обучения, чтобы увеличить их производительность на определенных сценариях. Эта стратегия позволяла нам улучшить локомоционные алгоритмы под конкретные условия, а также помогала роботу выбирать наиболее подходящую политику в зависимости от ландшафта.
## Результаты
Мы проверили нашу модель на симуляции, сравнив её с общей политикой. Наши результаты показали, что гибридная модель показала улучшение в успешности выполнения задач до 16%, а также снизила ошибки слежения за целью при увеличении скорости. Мы также демонстрировали, что наши политики выполняются эффективнее на сложных терранах, таких как грунт с низкой трения и непрерывные ландшафты, где они показали значительную выигрышную сторону по сравнению с общими политиками.
## Значимость
Наш подход может быть применен в ситуациях необходимости локомоции в зонах недоступности или неполного видения, таких как поисковые и спасательные операции, разведка в грунтовых условиях, а также в различных технических задачах. Этот подход демонстрирует возможность создания более устойчивых и адаптивных роботов, что может положительно сказаться на их применении в различных схемах военной, исследовательской и технической деятельности.
## Выводы
Мы установили, что гибридная модель политик, основанная на терран-специализированном обучении и курсивном росте, позволяет достичь высоко
Abstract
Legged robots must exhibit robust and agile locomotion across diverse,
unstructured terrains, a challenge exacerbated under blind locomotion settings
where terrain information is unavailable. This work introduces a hierarchical
reinforcement learning framework that leverages terrain-specialized policies
and curriculum learning to enhance agility and tracking performance in complex
environments. We validated our method on simulation, where our approach
outperforms a generalist policy by up to 16% in success rate and achieves lower
tracking errors as the velocity target increases, particularly on low-friction
and discontinuous terrains, demonstrating superior adaptability and robustness
across mixed-terrain scenarios.
Ссылки и действия
Дополнительные ресурсы: