Learning Terrain-Specialized Policies for Adaptive Locomotion in Challenging Environments

2509.20635v1 cs.RO, cs.AI 2025-09-26
Авторы:

Matheus P. Angarola, Francisco Affonso, Marcelo Becker

Резюме на русском

## Контекст Легкоходные роботы широко применяются в сложных, неполностью известных ландшафтах, где успешное навигационное поведение требует высокой адаптивности и максимальной производительности. Однако, в ситуациях безупречной навигации, где информация о ландшафте недоступна, проблемы становятся еще более актуальными. Необходимость в непрерывной навигации в зонах неполного или недоступного видения делает задачу создания эффективной локомоционной стратегии актуальной и сложной. Обычно используемые общие политики, не ориентирующиеся на специфику ландшафта, проявляют узкий подход и относительную неэффективность. Мы предлагаем новый подход, основанный на изучении террана и улучшении локомоционных способностей, чтобы решить эту проблему. ## Метод Наше решение основывается на гибридной архитектуре, включающей в себя терран-специализированные политики и технологию курсивного обучения, чтобы стимулировать улучшение локомоционных поведений. Мы использовали вспомогательные политики, которые были настроены для конкретных типов ландшафтов, включая грунт, ограждающие барьеры, водные поверхности. Эти политики были обучены с помощью курсивного обучения, чтобы увеличить их производительность на определенных сценариях. Эта стратегия позволяла нам улучшить локомоционные алгоритмы под конкретные условия, а также помогала роботу выбирать наиболее подходящую политику в зависимости от ландшафта. ## Результаты Мы проверили нашу модель на симуляции, сравнив её с общей политикой. Наши результаты показали, что гибридная модель показала улучшение в успешности выполнения задач до 16%, а также снизила ошибки слежения за целью при увеличении скорости. Мы также демонстрировали, что наши политики выполняются эффективнее на сложных терранах, таких как грунт с низкой трения и непрерывные ландшафты, где они показали значительную выигрышную сторону по сравнению с общими политиками. ## Значимость Наш подход может быть применен в ситуациях необходимости локомоции в зонах недоступности или неполного видения, таких как поисковые и спасательные операции, разведка в грунтовых условиях, а также в различных технических задачах. Этот подход демонстрирует возможность создания более устойчивых и адаптивных роботов, что может положительно сказаться на их применении в различных схемах военной, исследовательской и технической деятельности. ## Выводы Мы установили, что гибридная модель политик, основанная на терран-специализированном обучении и курсивном росте, позволяет достичь высоко

Abstract

Legged robots must exhibit robust and agile locomotion across diverse, unstructured terrains, a challenge exacerbated under blind locomotion settings where terrain information is unavailable. This work introduces a hierarchical reinforcement learning framework that leverages terrain-specialized policies and curriculum learning to enhance agility and tracking performance in complex environments. We validated our method on simulation, where our approach outperforms a generalist policy by up to 16% in success rate and achieves lower tracking errors as the velocity target increases, particularly on low-friction and discontinuous terrains, demonstrating superior adaptability and robustness across mixed-terrain scenarios.

Ссылки и действия