Do You Need Proprioceptive States in Visuomotor Policies?

2509.18644v2 cs.RO, cs.AI 2025-09-25
Авторы:

Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao

Резюме на русском

################################# ## Контекст ################################# Имитационно-обучаемые визуально-моторные политики широко применяются в робототехнике, где используются визуальные наблюдения и проприоцептивные состояния для точного управления. Однако в данном исследовании авторы отмечают, что объединение этих двух источников информации приводит к переобучению политики к тренировочным данным, что приводит к ограниченной общей логичности. Для решения этой проблемы предлагается State-free Policy, которая отказывается от проприоцептивных состояний и основывается только на визуальных наблюдениях. Эта политика работает в пространстве относительных конечных действий, полагаясь на расширенные визуальные данные с двумя широкоугольными камерами на запястье робота. Это решение адресует ожидания в отношении обобщения и робототехнической практичности. ################################# ## Метод ################################# State-free Policy определяется в относительном пространстве конечных действий, что позволяет роботу сфокусироваться только на визуальных наблюдениях. Для того, чтобы обеспечить эффективность, используется сверхушечный робот, оснащенный двумя широкоугольными камерами на запястьях. Эти камеры обеспечивают полный набор визуальных данных, необходимых для осуществления задач. Основной идеей заключается в том, чтобы уменьшить зависимость от проприоцептивных данных, чтобы улучшить общую универсальность и практическую полезность политики. ################################# ## Результаты ################################# Результаты экспериментов показывают, что State-free Policy эффективно работает в реальной среде и применении. На задачах, таких как вскрытие, складывание футболки и целостные манипуляции с телом робота, политика достигает улучшений в производительности. Например, успешность выполнения задач повышается от 0% до 85% в тестах на высоту и от 6% до 64% в тестах на горизонтальное распространение. Кроме того, State-free Policy оказывается более эффективной в обучении и адаптации к разным роботским корпусам, что делает ее более привлекательной для реальных применений. ################################# ## Значимость ################################# Предложенная политика State-free Policy обладает значительным потенциалом для применения в реальных роботских задачах. Она обеспечивает улучшенную общую логичность, эффективность и адаптивность. Эти достижения имеют значимый потенциал для улучшения применения в индустрии, где роботы должны реагировать на различные условия и задачи без предварительной настройки. Также, это решение открывает новые возможности для обучения роботов, используя только визуальные наблюдения, что упрощает процесс настройки и увеличивает надежность. ################################# ## Выводы ################################# В результате, State-free Policy доказывает свою эффективность и практичность в робототехнических задачах. Решение удалось значитель

Abstract

Imitation-learning-based visuomotor policies have been widely used in robot manipulation, where both visual observations and proprioceptive states are typically adopted together for precise control. However, in this study, we find that this common practice makes the policy overly reliant on the proprioceptive state input, which causes overfitting to the training trajectories and results in poor spatial generalization. On the contrary, we propose the State-free Policy, removing the proprioceptive state input and predicting actions only conditioned on visual observations. The State-free Policy is built in the relative end-effector action space, and should ensure the full task-relevant visual observations, here provided by dual wide-angle wrist cameras. Empirical results demonstrate that the State-free policy achieves significantly stronger spatial generalization than the state-based policy: in real-world tasks such as pick-and-place, challenging shirt-folding, and complex whole-body manipulation, spanning multiple robot embodiments, the average success rate improves from 0% to 85% in height generalization and from 6% to 64% in horizontal generalization. Furthermore, they also show advantages in data efficiency and cross-embodiment adaptation, enhancing their practicality for real-world deployment. Discover more by visiting: https://statefreepolicy.github.io.

Ссылки и действия