## Контекст
Автоматическое выявление навыков роботов является ключевым аспектом создания самостоятельных и адаптивных автономных систем. Данный подход позволяет роботам приобретать широкий спектл разнообразных поведений без предварительного ручного программирования. Однако существуют значительные затруднения в реализации этого подхода, особенно в тяготении к проблемам с безопасностью и эффективностью данных при работе на физическом оборудовании.
Существующие методы, например, Quality-Diversity Actor-Critic (QDAC), требуют ручной определения пространств навыков и тщательной настройки гибридных алгоритмов, что существенно ограничивает их применение в реальном мире. В этой работе предлагается расширенный подход, Unsupervised Real-world Skill Acquisition (URSA), который расширяет возможности QDAC, позволяя роботам самостоятельно выявлять и ведеть разнообразные, высокоэффективные навыки непосредственно в реальном мире.
## Метод
URSA основывается на расширенной модели QDAC, использующей непрерывную форму обучения, которая позволяет выявлять новые навыки в реальном времени. Робот обучается через итеративное приобретение новых навыков, которые оцениваются по некоторым метрикам, таким как эффективность и стабильность. Метод использует нейронные сети для оценки качества навыков и создания новых целей для обучения. Это позволяет выявлять навыки в условиях, где предварительная информация о среде или целях отсутствует.
Архитектура URSA включает в себя несколько моделей глубокого обучения, включая генеративную модель для генерирования поведений и нейронную сеть для оценки качества. Эти модели работают в сочетании с алгоритмами оптимизации, которые позволяют выявлять навыки, максимально приближенные к оптимальным в заданных условиях.
## Результаты
Эксперименты проводились с Unitree A1 quadruped-роботом, как в симуляционных условиях, так и на реальном оборудовании. Навыки, полученные с помощью URSA, включали различные формы ходьбы и прыжки, которые были эффективны и стабильны в разных ситуациях. Также, URSA продемонстрировала способность адаптироваться к ущербам в системе, таким как повреждения ног или других деталей, и продолжать выполнять задачи в условиях, где другие методы провалились.
Опытные результаты показали, что URSA может успешно обнаружить навыки в офлайн-режиме, а затем применить их в реальном мире с минимальной потребностью в предварительной настройке. Это особенно важно для приложений, где невозможно определить заранее все возможные ситуации.
## Значимость
Предложенный подход имеет широкие применения в различных областях, включая робототехнику, роботы-асси