Exploiting Policy Idling for Dexterous Manipulation

2508.15669v1 cs.RO, cs.LG, 68T40, I.2.9 2025-08-23
Авторы:

Annie S. Chen, Philemon Brakel, Antonia Bronars, Annie Xie, Sandy Huang, Oliver Groth, Maria Bauza, Markus Wulfmeier, Nicolas Heess, Dushyant Rao

Резюме на русском

## Контекст Осуществление точных декстеровных манипуляций широко используется в различных приложениях, включая робототехнику, медицинские устройства и автоматизацию производства. Однако, несмотря на успехы в обучении распределяемых моделей для таких задач, выявлены проблемы, такие как ограниченная надежность и нестабильность в выполнении задач, особенно при обработке тонких дифференциальных сигналов или выполнении сложных операций, таких как вставка объекта. Эти проблемы часто генерируются из-за недостатка данных, описывающих критические моменты манипуляции. Актуальной является задача развития методов, позволяющих улучшить надежность и устойчивость роботских систем в таких задачах. ## Метод Мы предлагаем метод Pause-Induced Perturbations (PIP), который использует детекцию моментов "идла" (idling) в действиях робота для улучшения поведения и устойчивости изучаемых моделей. "Идлинг" (idling) — это состояние, при котором робот прекращает движение в определенной области состояний и не может выполнить требуемую задачу. Метод PIP применяет минимальные корректирующие пертурбации в эти моменты, что позволяет роботу "экспериментировать" за пределами локальных оптимумов и увеличивает надежность поведения. Архитектура логики PIP основывается на моделировании сенсорных сигналов, выявлении "идлинга" и динамическом воздействии на систему для ее выхода из негативных локальных минимумов. ## Результаты Мы проверили наш метод на симуляционных задачах двойного-рукопашного манипулятора, включающих уточненную обработку и вставку объектов. Использовалась синтетическая и реальная ситуация для оценки. Набор экспериментов показал, что PIP увеличивает успешность выполнения задач на 15-35% в зависимости от сложности задач. Результаты показывают, что наш подход превосходит другие методы, такие как фильтрация данных или изменение частоты управления, которые могут привести к ухудшению других аспектов производительности. Более того, PIP не требует дополнительной сверхучения и оказывается эффективен даже в условиях неопределенности в данных. ## Значимость Предложенный подход может быть применен в сложных декстеровых задачах, где необходимо улучшить надежность и устойчивость роботских систем. Он может пригодиться в производственной автоматизации, где роботы должны выполнять точные и сложные движения, в медицине, где требуется тщательная обработка, и в жизнеспособных средах, где устойчивость модели к различным факторам варьирования критична. Наш подход отличается тем, что он не требует дополнительной сверхучения и может быть интегрирован в уже существующие сист

Abstract

Learning-based methods for dexterous manipulation have made notable progress in recent years. However, learned policies often still lack reliability and exhibit limited robustness to important factors of variation. One failure pattern that can be observed across many settings is that policies idle, i.e. they cease to move beyond a small region of states when they reach certain states. This policy idling is often a reflection of the training data. For instance, it can occur when the data contains small actions in areas where the robot needs to perform high-precision motions, e.g., when preparing to grasp an object or object insertion. Prior works have tried to mitigate this phenomenon e.g. by filtering the training data or modifying the control frequency. However, these approaches can negatively impact policy performance in other ways. As an alternative, we investigate how to leverage the detectability of idling behavior to inform exploration and policy improvement. Our approach, Pause-Induced Perturbations (PIP), applies perturbations at detected idling states, thus helping it to escape problematic basins of attraction. On a range of challenging simulated dual-arm tasks, we find that this simple approach can already noticeably improve test-time performance, with no additional supervision or training. Furthermore, since the robot tends to idle at critical points in a movement, we also find that learning from the resulting episodes leads to better iterative policy improvement compared to prior approaches. Our perturbation strategy also leads to a 15-35% improvement in absolute success rate on a real-world insertion task that requires complex multi-finger manipulation.

Ссылки и действия