Residual Off-Policy RL for Finetuning Behavior Cloning Policies

2509.19301v1 cs.RO, cs.LG 2025-09-25
Авторы:

Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi

Резюме на русском

## Контекст Модели визуальной копирования (Behavior Cloning, BC) позволяют эффективно обучать политики визуального управления, опираясь на данные от демонстраций людей. Однако у них существуют ряд ограничений: зависимость от качества исходных демонстраций, высокая сложность сбора данных, ограниченность возможностей значительного увеличения обучающего корпуса. Напротив, усиление имитации (Reinforcement Learning, RL) демонстрирует выдающиеся результаты в условиях универсального обучения через интерактивную среда обучения. Однако тренировка RL-политик непосредственно на настоящих роботах чрезвычайно сложна из-за высокого потребления образцов, высокого риска безопасности и трудности научиться в задачах с небольшими наградами на протяжении долгого времени, особенно для систем с большим числом степеней свободы (DoF). Наша работа предлагает способ объединить преимущества BC и RL, используя фреймворм резидентного обучения (residual learning). Мы применяем научные подходы не только в симуляционных средах, но и в реальном мире, в том числе для тренировки политик на роботах-антропоидах с многоступенчатыми системами движения. ## Метод Мы предлагаем развитие фреймворма смешанного обучения (hybrid learning), который использует BC-политики в качестве черного ящика и добавляет вычислительно эффективные корректировки через RL в оффлоадном режиме. Метод основывается на том, что BC-политики оптимизируют демонстрируемые траектории, а RL-политики корректируют их в процессе движения. Мы пользуемся реализацией методов офф-поли RL с резидентными корректировками, что позволяет избежать требования к большому количеству наградных сигналов и уменьшать размер памяти, необходимый для хранения данных. Это подходящее решение для долгосрочных задач на роботах с высоким числом степеней свободы, таких как роботы с руками-дикторами. ## Результаты Мы провели эксперименты в симуляционной среде и на реальных роботах, в том числе на роботе-антропоиде с дексерными руками. Наши эксперименты подтверждают, что наш метод позволяет существенно улучшить результаты BC-политик. Мы применили нашу модель к задачам визуального управления, включая ловлю предметов, и получили результаты, которые превосходят многие аналогичные работы. Наш метод успешно работает в реальном мире, в том числе с участием робота-антропоида, и показывает, что RL может быть эффективно применено в реальных условиях, включая роботов с высокой степенью свободы. ## Значимость Метод, примененный в нашей работе, демонстрирует широкие возможности для применения в сферах, где необходимы решения для визуального контроля, включая визуальную задачу лов

Abstract

Recent advances in behavior cloning (BC) have enabled impressive visuomotor control policies. However, these approaches are limited by the quality of human demonstrations, the manual effort required for data collection, and the diminishing returns from increasing offline data. In comparison, reinforcement learning (RL) trains an agent through autonomous interaction with the environment and has shown remarkable success in various domains. Still, training RL policies directly on real-world robots remains challenging due to sample inefficiency, safety concerns, and the difficulty of learning from sparse rewards for long-horizon tasks, especially for high-degree-of-freedom (DoF) systems. We present a recipe that combines the benefits of BC and RL through a residual learning framework. Our approach leverages BC policies as black-box bases and learns lightweight per-step residual corrections via sample-efficient off-policy RL. We demonstrate that our method requires only sparse binary reward signals and can effectively improve manipulation policies on high-degree-of-freedom (DoF) systems in both simulation and the real world. In particular, we demonstrate, to the best of our knowledge, the first successful real-world RL training on a humanoid robot with dexterous hands. Our results demonstrate state-of-the-art performance in various vision-based tasks, pointing towards a practical pathway for deploying RL in the real world. Project website: https://residual-offpolicy-rl.github.io

Ссылки и действия