Unsupervised Skill Discovery as Exploration for Learning Agile Locomotion

2508.08982v1 cs.RO, cs.AI, cs.LG 2025-08-14

Авторы:

Seungeun Rho, Kartik Garg, Morgan Byrd, Sehoon Ha

Резюме на русском

## Контекст Обучение маневренной локамоции роботам с четырьмя ногами остается значительной проблемой в робототехнике. Для достижения этой цели необходимо грамотно сконцентрироваться на эксплорейшн, поскольку это ключевым фактором для развития ударной мобильности в сложных средах. Несмотря на то, что существуют методы, такие как наградное проектирование, демонстрационные подходы или курсы обучения, они часто приводят к сужению области применения и недостаточной универсальности. В этом исследовании мы предлагаем новую модель, которая применяет автоматическое раскрытие способности для эксплорейшн, снижая необходимость в ручном вмешательстве. ## Метод Мы предлагаем фреймворк **Skill Discovery as Exploration (SDAX)**, который использует методы неуправляемого обучения для раскрытия способностей. Фреймворк построен на би-уровневом оптимизационном процессе, который автоматически регулирует степень эксплорейшн в ходе обучения. Мы также используем автокодировщик для выявления независимых способностей и управления ими. Это позволяет роботу построить репертуар различных маневров, таких как подбегание, подбирание, прыжки и другие сложные движения. Мы проводим эксперименты как в симуляционной, так и в реальной среде, чтобы продемонстрировать широту возможностей фреймворка. ## Результаты Мы проверяем SDAX на виртуальных моделях роботов и в реальной среде. Наши эксперименты показывают, что SDAX может успешно выявить различные способности, такие как подбегание, подбирание, прыжки и другие сложные маневры. Мы также продемонстрировали успешный переход из симуляционной модели в реальную среду. Это позволяет роботу выполнять сложные движения в реальном мире с помощью полученных навыков. ## Значимость Наша работа может быть применена в различных приложениях, таких как поисковые операции после катастроф, доставка товаров и исследования неудобных территорий. Основные преимущества SDAX заключаются в снижении требований к ручному вмешательству, обеспечении широкой универсальности и высокой гибкости в обучении роботу. Это может открыть новые горизонты в развитии роботов с четырьмя ногами для сложных условий. ## Выводы Мы успешно продемонстрировали, что SDAX может быть эффективным инструментом для обучения маневренной локамоции в сложных средах. Мы также показали, что SDAX может быть распространен в различных приложениях. В будущем мы планируем расширить его возможности, включив дополнительные физические модели и улучшив его эффективность.

Abstract

Exploration is crucial for enabling legged robots to learn agile locomotion behaviors that can overcome diverse obstacles. However, such exploration is inherently challenging, and we often rely on extensive reward engineering, expert demonstrations, or curriculum learning - all of which limit generalizability. In this work, we propose Skill Discovery as Exploration (SDAX), a novel learning framework that significantly reduces human engineering effort. SDAX leverages unsupervised skill discovery to autonomously acquire a diverse repertoire of skills for overcoming obstacles. To dynamically regulate the level of exploration during training, SDAX employs a bi-level optimization process that autonomously adjusts the degree of exploration. We demonstrate that SDAX enables quadrupedal robots to acquire highly agile behaviors including crawling, climbing, leaping, and executing complex maneuvers such as jumping off vertical walls. Finally, we deploy the learned policy on real hardware, validating its successful transfer to the real world.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unsupervised Skill Discovery as Exploration for Learning Agile Locomotion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Autonomous Reinforcement Learning Robot Control with Intel's Loihi 2 Neuromorphi...

Real-World Reinforcement Learning of Active Perception Behaviors

Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical...

Learning Sim-to-Real Humanoid Locomotion in 15 Minutes

Phase-Adaptive LLM Framework with Multi-Stage Validation for Construction Robot ...

Навигация