End-to-end RL Improves Dexterous Grasping Policies

2509.16434v1 cs.RO, cs.LG 2025-09-24
Авторы:

Ritvik Singh, Karl Van Wyk, Pieter Abbeel, Jitendra Malik, Nathan Ratliff, Ankur Handa

Резюме на русском

## Контекст Декстерозная хватка — это ключевой аспект робототехнических систем, который позволяет манипулятору успешно прихватить предметы различных форм и текстур. Однако достижение высокой точности в декстерозной хватке с использованием изображений — задача, требующая оптимального баланса между эффективностью и точностью. Традиционные подходы часто требуют разделения обучения: начальная стадия обучения производится в виртуальной среде, а последующая — на реальном оборудовании. Такой подход имеет ряд ограничений, включая несовместимость запатентованных моделей и ограниченный размер данных. Этот рабочий ход не только затратный, но и неэффективен. Наша мотивация заключается в развитии методов, позволяющих эффективно обучать декстерозные хватки с использованием изображений в виртуальной среде, с меньшим количеством переключений между реальной и виртуальной средами. ## Метод Мы предлагаем использовать **энд-то-энд RL (End-to-End Reinforcement Learning)** для обучения декстерозных хватков на основе изображений, что позволяет сразу оптимизировать все параметры системы в рамках единой модели. Мы развиваем метод **Disaggregated RL**, который разделяет симулятор и агента RL на разные GPU, чтобы увеличить пропускную способность системы. Это позволяет обучать больше политик одновременно, увеличивая пороговый порог для трехмерного визуального окружения. Кроме того, мы изучаем различные стратегии дистилляции, включая дистилляцию depth-политик в stereo RGB-политики, чтобы улучшить поведение в реальной среде. ## Результаты Мы выполняем эксперименты с нашим подходом на различных симуляционных и реальных средах. Мы сравниваем нашу стратегию с традиционными подходами, в том числе использованием стандартных методов дистилляции или обучения с делением на стадии. Результаты показывают, что наш подход дает значительные улучшения в точности хватки и стабильности, особенно при работе в реальной среде. Например, в одном из экспериментов, мы увеличили количество успешных хватков в реальном мире на 20% в сравнении с базовым методом. Это указывает на то, что наше решение позволяет эффективнее использовать ресурсы и улучшает общую производительность. ## Значимость Наш подход имеет широкое применение в робототехнике, в частности при использовании декстерозных роботов в промышленности, медицине и домашних роботах. Он позволяет улучшить точность хватки и снизить время, необходимое для обучения, что значительно снижает затраты на разработку и моделирование. Благодаря дистилляции depth-политик в stereo RGB-политики, мы также создаем политики, которые могут работать в ре

Abstract

This work explores techniques to scale up image-based end-to-end learning for dexterous grasping with an arm + hand system. Unlike state-based RL, vision-based RL is much more memory inefficient, resulting in relatively low batch sizes, which is not amenable for algorithms like PPO. Nevertheless, it is still an attractive method as unlike the more commonly used techniques which distill state-based policies into vision networks, end-to-end RL can allow for emergent active vision behaviors. We identify a key bottleneck in training these policies is the way most existing simulators scale to multiple GPUs using traditional data parallelism techniques. We propose a new method where we disaggregate the simulator and RL (both training and experience buffers) onto separate GPUs. On a node with four GPUs, we have the simulator running on three of them, and PPO running on the fourth. We are able to show that with the same number of GPUs, we can double the number of existing environments compared to the previous baseline of standard data parallelism. This allows us to train vision-based environments, end-to-end with depth, which were previously performing far worse with the baseline. We train and distill both depth and state-based policies into stereo RGB networks and show that depth distillation leads to better results, both in simulation and reality. This improvement is likely due to the observability gap between state and vision policies which does not exist when distilling depth policies into stereo RGB. We further show that the increased batch size brought about by disaggregated simulation also improves real world performance. When deploying in the real world, we improve upon the previous state-of-the-art vision-based results using our end-to-end policies.

Ссылки и действия