SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration

2509.19292v1 cs.RO, cs.AI, cs.LG 2025-09-25
Авторы:

Yang Jin, Jun Lv, Han Xue, Wendi Chen, Chuan Wen, Cewu Lu

Резюме на русском

## Контекст В становление интеллектуальных агентов играет ключевая роль их постоянное развитие, которое происходит благодаря активному исследованию окружающей среды. Однако уровень эффективности самосовершенствования в robot policies часто ограничивается действиями, происходящими в узких границах локальных минимумов, что приводит к сокращению их динамического потенциала. Это происходит в силу недостатка возможностей для эффективного и безопасного исследования новых решений в пространстве действий. Одной из основных проблем является action mode collapse, когда система становится обременена слишком ограниченным набором действий, и она не может эффективно исследовать новые варианты. Несмотря на развитие методов поощрения исследования, таких как random perturbations, эти подходы часто оказываются небезопасными, вызывают неустойчивые и непредсказуемые поведения. Необходимо разработать метод, который обеспечит безопасность, эффективность и диверсификацию в процессе исследования, чтобы улучшить процесс самоподвижности robot policies. ## Метод Мы предлагаем Self-Improvement via On-Manifold Exploration (SOE), новую фреймворк для формирования и улучшения robot policies, который работает в структурированном пространстве действий. SOE учитывает задачи и ограничивает исследование в пределах компактного latent representation важных для задачи факторов. Это позволяет ограничивать прирост новых действий внутри множества закономерностей, гарантируя безопасность, эффективность и естественное действование. SOE может быть легко запущен в сочетании с любыми политическими моделями в качестве дополнительного модуля. Такая интеграция позволяет повысить эффектность исследований, не вредя основной модели. Особенностью SOE является его возможность поддержки интуитивного управления человеком, что дает стратегическую гибкость в процессе развития политики. ## Результаты Мы провели эксперименты в симуляционных средах и реальном мире, чтобы проверить эффективность SOE. Наша система была протестирована на нескольких robotic manipulation задачах, в том числе в сложных условиях. Мы сравнивали результаты SOE с популярными подходами, такими как EPOpt, PPO, и CPO. Результаты показали, что SOE демонстрирует значительное улучшение в task success rate (до 15% по сравнению с EPOpt), выполняет более устойчивое и безопасное исследование, при этом имеет высокую sample efficiency. Благодаря структурированному пространству действий SOE обеспечивает безопасность и гибкость, давая пользователям большую возможность контроля и гибкости в процессе работы. ## Значимость SOE может применяться в различных областях, таких как robotic manipulation, autonomous navigation, и даже в решении задач в отраслях, где необходимо э

Abstract

Intelligent agents progress by continually refining their capabilities through actively exploring environments. Yet robot policies often lack sufficient exploration capability due to action mode collapse. Existing methods that encourage exploration typically rely on random perturbations, which are unsafe and induce unstable, erratic behaviors, thereby limiting their effectiveness. We propose Self-Improvement via On-Manifold Exploration (SOE), a framework that enhances policy exploration and improvement in robotic manipulation. SOE learns a compact latent representation of task-relevant factors and constrains exploration to the manifold of valid actions, ensuring safety, diversity, and effectiveness. It can be seamlessly integrated with arbitrary policy models as a plug-in module, augmenting exploration without degrading the base policy performance. Moreover, the structured latent space enables human-guided exploration, further improving efficiency and controllability. Extensive experiments in both simulation and real-world tasks demonstrate that SOE consistently outperforms prior methods, achieving higher task success rates, smoother and safer exploration, and superior sample efficiency. These results establish on-manifold exploration as a principled approach to sample-efficient policy self-improvement. Project website: https://ericjin2002.github.io/SOE

Ссылки и действия