Prepare Before You Act: Learning From Humans to Rearrange Initial States
2509.18043v1
cs.RO, cs.LG, cs.SY, eess.SY
2025-09-24
Авторы:
Yinlong Dai, Andre Keyser, Dylan P. Losey
Резюме на русском
## Контекст
Imitation learning (IL) широко применяется для сложных манипулятивных задач, но сталкивается с ограничениями при работе с выходными данными, находящимися вне распределения обучающей выборки. Например, IL-политики неэффективны при работе с нестандартными начальными состояниями, такими как неожиданная позиция объекта или его полное или частичное окклюзирование. В таких ситуациях необходимы дополнительные демонстрации, чтобы IL-системы могли обеспечить высокую универсальность и надежность.
Подобные ситуации часто встречаются в повседневной жизни: люди отрегулировывают окружающую среду для упрощения выполнения задачи. Например, вращают кружку для того, чтобы легче было захватить его, или двигают препятствие, чтобы получить доступ к цели. Мы предлагаем моделировать подобное поведение у роботов, чтобы они могли подготавливать окружение перед выполнением задачи.
## Метод
Мы предлагаем ReSET — алгоритм, который автоматически редактирует сцену перед тем, как запустить политику IL. Решение включает следующие этапы:
1. **Диагностика нестандартного начального состояния**: Мы оцениваем, насколько состояние входит в распределение, задействуя task-agnostic human teleoperation data и action-agnostic human videos.
2. **Предсказание подходящих действий**: Мы моделируем действия, которые мог бы применить человек для переразмещения объектов и упрощения задачи.
3. **Реализация роботом**: Мы преобразуем предложенные действия в примитивы роботом, используя существующую модель политики IL.
Эта стратегия позволяет сократить общее число демонстраций, необходимое для устойчивой и общительной работы.
## Результаты
Мы проводили эксперименты на виртуальных и реальных сценах с различными задачами манипуляции. Результаты показывают, что ReSET позволяет улучшить универсальность и надежность IL-политик при одинаковом объеме обучающих данных. Мы сравнивали нашу модель с Diffusion Policies, VLAs и другими базовыми алгоритмами. В результате ReSET показала более высокую точность и большую устойчивость при выполнении задач в нестандартных начальных состояниях.
## Значимость
Вычислительные эксперименты и практические исследования показали, что ReSET может быть применен в многочисленных манипулятивных задачах, включая домашние и промышленные сценарии. Основные преимущества:
- Улучшенная универсальность IL-политик.
- Относительно низкий затратный подход для достижения высокой надежности.
- Увеличение гибкости в работе в условиях нестандартных начальных состояний.
## Выводы
Мы представили ReSET — алгоритм, который мотивирует роботы воспроизводить роль человека в подготовке окружающей среды для упрощения задач. Наши теоретические
Abstract
Imitation learning (IL) has proven effective across a wide range of
manipulation tasks. However, IL policies often struggle when faced with
out-of-distribution observations; for instance, when the target object is in a
previously unseen position or occluded by other objects. In these cases,
extensive demonstrations are needed for current IL methods to reach robust and
generalizable behaviors. But when humans are faced with these sorts of atypical
initial states, we often rearrange the environment for more favorable task
execution. For example, a person might rotate a coffee cup so that it is easier
to grasp the handle, or push a box out of the way so they can directly grasp
their target object. In this work we seek to equip robot learners with the same
capability: enabling robots to prepare the environment before executing their
given policy. We propose ReSET, an algorithm that takes initial states -- which
are outside the policy's distribution -- and autonomously modifies object poses
so that the restructured scene is similar to training data. Theoretically, we
show that this two step process (rearranging the environment before rolling out
the given policy) reduces the generalization gap. Practically, our ReSET
algorithm combines action-agnostic human videos with task-agnostic
teleoperation data to i) decide when to modify the scene, ii) predict what
simplifying actions a human would take, and iii) map those predictions into
robot action primitives. Comparisons with diffusion policies, VLAs, and other
baselines show that using ReSET to prepare the environment enables more robust
task execution with equal amounts of total training data. See videos at our
project website: https://reset2025paper.github.io/