Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration
2509.09671v1
cs.RO, cs.CV
2025-09-13
Авторы:
Sirui Xu, Yu-Wei Chao, Liuyu Bian, Arsalan Mousavian, Yu-Xiong Wang, Liang-Yan Gui, Wei Yang
Резюме на русском
## Контекст
Динамические и контакт-богатые демонстрации, доступные в хенд-обджект моушн-каптур (MoCap) репозиториях, обещают ускорить прогресс в области декстерного робототвоения. Однако в этих демонстрациях часто существуют проблемы, такие как неточности, несоответствие моделируемой системы и существующих данных, а также высокая степень комплексности. Эти характеристики ограничивают возможности использования данных в существующих методах. Методы, основанные на стадиях, таких как перетargetинг, трекинг и коррекция резидуальных ошибок, либо неэффективно используют данные, либо создают цепочку ошибок, которая ухудшает результаты. В настоящей работе предлагается Dexplore — новая система, которая объединяет ретаргетинг и трекинг в единое решение, чтобы напрямую извлекать политики управления из данных MoCap на большой шалу.
## Метод
Dexplore предлагает новый подход к обучению политик управления для декстерного робототвоения. Вместо того, чтобы рассматривать демонстрации как «земляные истины», Dexplore использует их как гибкие руководства, которые подстраиваются под конкретные задачи. С помощью глубокого обучения, включая reinforcement learning, метод учитывает адаптивные пространственные скопления, что позволяет политике управления оставаться в рамках демонстрационных данных, а также минимизировать контрольный усилие. Этот подход не только позволяет избегать ошибок, связанных с точностью демонстраций, но и позволяет роботу вырабатывать свои собственные стратегии. Данный подход широко масштабируется и обеспечивает высокую устойчивость к шуму в данных.
## Результаты
Для проверки Dexplore были проведены эксперименты на различных руко-объектных сценариях, включая тухлые и контакт-богатые демонстрации. Было показано, что Dexplore эффективно извлекает политики управления из данных MoCap, даже если эти данные содержат существующие ошибки. Также было показано, что полученные политики очень устойчивы к шуму и могут применяться в реальном мире. Эксперименты показали, что Dexplore не только улучшает точность, но и обеспечивает более органичное взаимодействие робота с объектами. Также были проведены эксперименты с генеративным контроллером, подтвердив, что Dexplore может хорошо справляться с большим количеством данных и выполнять различные задачи.
## Значимость
Предлагаемый подход Dexplore может быть применен в различных областях, включая не только робототвоение, но и другие прикладные задачи, требующие точного управления. Он обеспечивает ряд преимуществ, включая высокую точность, устойчивость к шуму и масштабируемость. Эти п
Abstract
Hand-object motion-capture (MoCap) repositories offer large-scale,
contact-rich demonstrations and hold promise for scaling dexterous robotic
manipulation. Yet demonstration inaccuracies and embodiment gaps between human
and robot hands limit the straightforward use of these data. Existing methods
adopt a three-stage workflow, including retargeting, tracking, and residual
correction, which often leaves demonstrations underused and compound errors
across stages. We introduce Dexplore, a unified single-loop optimization that
jointly performs retargeting and tracking to learn robot control policies
directly from MoCap at scale. Rather than treating demonstrations as ground
truth, we use them as soft guidance. From raw trajectories, we derive adaptive
spatial scopes, and train with reinforcement learning to keep the policy
in-scope while minimizing control effort and accomplishing the task. This
unified formulation preserves demonstration intent, enables robot-specific
strategies to emerge, improves robustness to noise, and scales to large
demonstration corpora. We distill the scaled tracking policy into a
vision-based, skill-conditioned generative controller that encodes diverse
manipulation skills in a rich latent representation, supporting generalization
across objects and real-world deployment. Taken together, these contributions
position Dexplore as a principled bridge that transforms imperfect
demonstrations into effective training signals for dexterous manipulation.
Ссылки и действия
Дополнительные ресурсы: