Unsupervised Skill Discovery as Exploration for Learning Agile Locomotion
2508.08982v1
cs.RO, cs.AI, cs.LG
2025-08-14
Авторы:
Seungeun Rho, Kartik Garg, Morgan Byrd, Sehoon Ha
Резюме на русском
## Контекст
Обучение маневренной локамоции роботам с четырьмя ногами остается значительной проблемой в робототехнике. Для достижения этой цели необходимо грамотно сконцентрироваться на эксплорейшн, поскольку это ключевым фактором для развития ударной мобильности в сложных средах. Несмотря на то, что существуют методы, такие как наградное проектирование, демонстрационные подходы или курсы обучения, они часто приводят к сужению области применения и недостаточной универсальности. В этом исследовании мы предлагаем новую модель, которая применяет автоматическое раскрытие способности для эксплорейшн, снижая необходимость в ручном вмешательстве.
## Метод
Мы предлагаем фреймворк **Skill Discovery as Exploration (SDAX)**, который использует методы неуправляемого обучения для раскрытия способностей. Фреймворк построен на би-уровневом оптимизационном процессе, который автоматически регулирует степень эксплорейшн в ходе обучения. Мы также используем автокодировщик для выявления независимых способностей и управления ими. Это позволяет роботу построить репертуар различных маневров, таких как подбегание, подбирание, прыжки и другие сложные движения. Мы проводим эксперименты как в симуляционной, так и в реальной среде, чтобы продемонстрировать широту возможностей фреймворка.
## Результаты
Мы проверяем SDAX на виртуальных моделях роботов и в реальной среде. Наши эксперименты показывают, что SDAX может успешно выявить различные способности, такие как подбегание, подбирание, прыжки и другие сложные маневры. Мы также продемонстрировали успешный переход из симуляционной модели в реальную среду. Это позволяет роботу выполнять сложные движения в реальном мире с помощью полученных навыков.
## Значимость
Наша работа может быть применена в различных приложениях, таких как поисковые операции после катастроф, доставка товаров и исследования неудобных территорий. Основные преимущества SDAX заключаются в снижении требований к ручному вмешательству, обеспечении широкой универсальности и высокой гибкости в обучении роботу. Это может открыть новые горизонты в развитии роботов с четырьмя ногами для сложных условий.
## Выводы
Мы успешно продемонстрировали, что SDAX может быть эффективным инструментом для обучения маневренной локамоции в сложных средах. Мы также показали, что SDAX может быть распространен в различных приложениях. В будущем мы планируем расширить его возможности, включив дополнительные физические модели и улучшив его эффективность.
Abstract
Exploration is crucial for enabling legged robots to learn agile locomotion
behaviors that can overcome diverse obstacles. However, such exploration is
inherently challenging, and we often rely on extensive reward engineering,
expert demonstrations, or curriculum learning - all of which limit
generalizability. In this work, we propose Skill Discovery as Exploration
(SDAX), a novel learning framework that significantly reduces human engineering
effort. SDAX leverages unsupervised skill discovery to autonomously acquire a
diverse repertoire of skills for overcoming obstacles. To dynamically regulate
the level of exploration during training, SDAX employs a bi-level optimization
process that autonomously adjusts the degree of exploration. We demonstrate
that SDAX enables quadrupedal robots to acquire highly agile behaviors
including crawling, climbing, leaping, and executing complex maneuvers such as
jumping off vertical walls. Finally, we deploy the learned policy on real
hardware, validating its successful transfer to the real world.
Ссылки и действия
Дополнительные ресурсы: