RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction

2509.07953v1 cs.RO, cs.LG 2025-09-11
Авторы:

Zheyuan Hu, Robyn Wu, Naveen Enock, Jasmine Li, Riya Kadakia, Zackory Erickson, Aviral Kumar

Резюме на русском

#### Контекст Современные подходы к обучению роботов для выполнения задач длительного горизонта сталкиваются с рядом ограничений. Несмотря на то, что использование масштабных демонстраций, сборка данных с помощью телеоператоров и развитие выразительных архитектур политик позволяют достичь успеха в простых задачах, на практике работа роботов на трудных контактных, деформируемых объектах и длинных горизонтах задач остается неудовлетворительной. Даже при сборе тысяч экспертных демонстраций подходы, основанные на телеоператорах, оказываются неэффективными. Это возникает из-за того, что робот не может "учиться" из ошибок в реальном времени, а сбор данных ошибок требует многотысячных демонстраций, что повышает затраты на обучение. #### Метод Рассматривается новая методология обучения роботов, названная RaC (Recovery and Correction). Метод основывается на использовании роли людей в процессе обучения. Во время выполнения задачи робот, если возникает неполадка, оператор вмешивается, снимая робота с ошибки, затем возвращает его в "безопасное" состояние, а затем демонстрирует решение подзадачи. Таким образом, робот научится "учиться по ошибкам". Этот подход включает в себя моделирование не только основной политики, но и стратегий восстановления и корректировки. Эта архитектура позволяет роботу лучше понимать, как восстановиться после ошибки и выполнить задачу. #### Результаты Данный подход был проверен на нескольких реальных задачах: укладке белья, запечатывании шкафа, укладке тарелок и сборке. За счет внедрения RaC, робот оказался эффективнее, используя 10 раз меньше травмированных данных. На реальных задачах, робот повысил производительность, уменьшил количество ошибок и увеличил восстанавливаемость задачи. На симуляционной задаче сборки, рендеринг политики RaC показал более высокий уровень производительности и гибкости. #### Значимость Метод может быть применен в различных сферах, таких как промышленность, здравоохранение и домашний сервис. Он предоставляет выгоду в виде эффективности и надежности. Одной из основных преимуществ является снижение количества данных, необходимых для обучения, что позволяет существенно сократить время и стоимость развития роботных систем. #### Выводы Результаты показывают, что RaC значительно улучшает показатели обучения роботов в области длительных задач с контактными операциями. В дальнейшем будет продолжено исследование подходов для расширения возможностей роботов в реальном времени, с учетом более сложных сценариев и задач. Направления будущих исследований включают развитие моделей, способных лучше адаптирова

Abstract

Modern paradigms for robot imitation train expressive policy architectures on large amounts of human demonstration data. Yet performance on contact-rich, deformable-object, and long-horizon tasks plateau far below perfect execution, even with thousands of expert demonstrations. This is due to the inefficiency of existing ``expert'' data collection procedures based on human teleoperation. To address this issue, we introduce RaC, a new phase of training on human-in-the-loop rollouts after imitation learning pre-training. In RaC, we fine-tune a robotic policy on human intervention trajectories that illustrate recovery and correction behaviors. Specifically, during a policy rollout, human operators intervene when failure appears imminent, first rewinding the robot back to a familiar, in-distribution state and then providing a corrective segment that completes the current sub-task. Training on this data composition expands the robotic skill repertoire to include retry and adaptation behaviors, which we show are crucial for boosting both efficiency and robustness on long-horizon tasks. Across three real-world bimanual control tasks: shirt hanging, airtight container lid sealing, takeout box packing, and a simulated assembly task, RaC outperforms the prior state-of-the-art using 10$\times$ less data collection time and samples. We also show that RaC enables test-time scaling: the performance of the trained RaC policy scales linearly in the number of recovery maneuvers it exhibits. Videos of the learned policy are available at https://rac-scaling-robot.github.io/.

Ссылки и действия