RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction
2509.07953v1
cs.RO, cs.LG
2025-09-11
Авторы:
Zheyuan Hu, Robyn Wu, Naveen Enock, Jasmine Li, Riya Kadakia, Zackory Erickson, Aviral Kumar
Резюме на русском
#### Контекст
Современные подходы к обучению роботов для выполнения задач длительного горизонта сталкиваются с рядом ограничений. Несмотря на то, что использование масштабных демонстраций, сборка данных с помощью телеоператоров и развитие выразительных архитектур политик позволяют достичь успеха в простых задачах, на практике работа роботов на трудных контактных, деформируемых объектах и длинных горизонтах задач остается неудовлетворительной. Даже при сборе тысяч экспертных демонстраций подходы, основанные на телеоператорах, оказываются неэффективными. Это возникает из-за того, что робот не может "учиться" из ошибок в реальном времени, а сбор данных ошибок требует многотысячных демонстраций, что повышает затраты на обучение.
#### Метод
Рассматривается новая методология обучения роботов, названная RaC (Recovery and Correction). Метод основывается на использовании роли людей в процессе обучения. Во время выполнения задачи робот, если возникает неполадка, оператор вмешивается, снимая робота с ошибки, затем возвращает его в "безопасное" состояние, а затем демонстрирует решение подзадачи. Таким образом, робот научится "учиться по ошибкам". Этот подход включает в себя моделирование не только основной политики, но и стратегий восстановления и корректировки. Эта архитектура позволяет роботу лучше понимать, как восстановиться после ошибки и выполнить задачу.
#### Результаты
Данный подход был проверен на нескольких реальных задачах: укладке белья, запечатывании шкафа, укладке тарелок и сборке. За счет внедрения RaC, робот оказался эффективнее, используя 10 раз меньше травмированных данных. На реальных задачах, робот повысил производительность, уменьшил количество ошибок и увеличил восстанавливаемость задачи. На симуляционной задаче сборки, рендеринг политики RaC показал более высокий уровень производительности и гибкости.
#### Значимость
Метод может быть применен в различных сферах, таких как промышленность, здравоохранение и домашний сервис. Он предоставляет выгоду в виде эффективности и надежности. Одной из основных преимуществ является снижение количества данных, необходимых для обучения, что позволяет существенно сократить время и стоимость развития роботных систем.
#### Выводы
Результаты показывают, что RaC значительно улучшает показатели обучения роботов в области длительных задач с контактными операциями. В дальнейшем будет продолжено исследование подходов для расширения возможностей роботов в реальном времени, с учетом более сложных сценариев и задач. Направления будущих исследований включают развитие моделей, способных лучше адаптирова
Abstract
Modern paradigms for robot imitation train expressive policy architectures on
large amounts of human demonstration data. Yet performance on contact-rich,
deformable-object, and long-horizon tasks plateau far below perfect execution,
even with thousands of expert demonstrations. This is due to the inefficiency
of existing ``expert'' data collection procedures based on human teleoperation.
To address this issue, we introduce RaC, a new phase of training on
human-in-the-loop rollouts after imitation learning pre-training. In RaC, we
fine-tune a robotic policy on human intervention trajectories that illustrate
recovery and correction behaviors. Specifically, during a policy rollout, human
operators intervene when failure appears imminent, first rewinding the robot
back to a familiar, in-distribution state and then providing a corrective
segment that completes the current sub-task. Training on this data composition
expands the robotic skill repertoire to include retry and adaptation behaviors,
which we show are crucial for boosting both efficiency and robustness on
long-horizon tasks. Across three real-world bimanual control tasks: shirt
hanging, airtight container lid sealing, takeout box packing, and a simulated
assembly task, RaC outperforms the prior state-of-the-art using 10$\times$ less
data collection time and samples. We also show that RaC enables test-time
scaling: the performance of the trained RaC policy scales linearly in the
number of recovery maneuvers it exhibits. Videos of the learned policy are
available at https://rac-scaling-robot.github.io/.
Ссылки и действия
Дополнительные ресурсы: