📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Exploiting Policy Idling for Dexterous Manipulation

2025-08-23

Авторы:

Annie S. Chen, Philemon Brakel, Antonia Bronars, Annie Xie, Sandy Huang, Oliver Groth, Maria Bauza, Markus Wulfmeier, Nicolas Heess, Dushyant Rao

## Контекст Осуществление точных декстеровных манипуляций широко используется в различных приложениях, включая робототехнику, медицинские устройства и автоматизацию производства. Однако, несмотря на успехы в обучении распределяемых моделей для таких задач, выявлены проблемы, такие как ограниченная надежность и нестабильность в выполнении задач, особенно при обработке тонких дифференциальных сигналов или выполнении сложных операций, таких как вставка объекта. Эти проблемы часто генерируются из-за недостатка данных, описывающих критические моменты манипуляции. Актуальной является задача развития методов, позволяющих улучшить надежность и устойчивость роботских систем в таких задачах. ## Метод Мы предлагаем метод Pause-Induced Perturbations (PIP), который использует детекцию моментов "идла" (idling) в действиях робота для улучшения поведения и устойчивости изучаемых моделей. "Идлинг" (idling) — это состояние, при котором робот прекращает движение в определенной области состояний и не может выполнить требуемую задачу. Метод PIP применяет минимальные корректирующие пертурбации в эти моменты, что позволяет роботу "экспериментировать" за пределами локальных оптимумов и увеличивает надежность поведения. Архитектура логики PIP основывается на моделировании сенсорных сигналов, выявлении "идлинга" и динамическом воздействии на систему для ее выхода из негативных локальных минимумов. ## Результаты Мы проверили наш метод на симуляционных задачах двойного-рукопашного манипулятора, включающих уточненную обработку и вставку объектов. Использовалась синтетическая и реальная ситуация для оценки. Набор экспериментов показал, что PIP увеличивает успешность выполнения задач на 15-35% в зависимости от сложности задач. Результаты показывают, что наш подход превосходит другие методы, такие как фильтрация данных или изменение частоты управления, которые могут привести к ухудшению других аспектов производительности. Более того, PIP не требует дополнительной сверхучения и оказывается эффективен даже в условиях неопределенности в данных. ## Значимость Предложенный подход может быть применен в сложных декстеровых задачах, где необходимо улучшить надежность и устойчивость роботских систем. Он может пригодиться в производственной автоматизации, где роботы должны выполнять точные и сложные движения, в медицине, где требуется тщательная обработка, и в жизнеспособных средах, где устойчивость модели к различным факторам варьирования критична. Наш подход отличается тем, что он не требует дополнительной сверхучения и может быть интегрирован в уже существующие сист

Annotation:

Learning-based methods for dexterous manipulation have made notable progress in recent years. However, learned policies often still lack reliability and exhibit limited robustness to important factors of variation. One failure pattern that can be observed across many settings is that policies idle, i.e. they cease to move beyond a small region of states when they reach certain states. This policy idling is often a reflection of the training data. For instance, it can occur when the data contains...

ID: 2508.15669v1 cs.RO, cs.LG, 68T40, I.2.9

arXiv PDF