Prepare Before You Act: Learning From Humans to Rearrange Initial States

2509.18043v1 cs.RO, cs.LG, cs.SY, eess.SY 2025-09-24
Авторы:

Yinlong Dai, Andre Keyser, Dylan P. Losey

Резюме на русском

## Контекст Imitation learning (IL) широко применяется для сложных манипулятивных задач, но сталкивается с ограничениями при работе с выходными данными, находящимися вне распределения обучающей выборки. Например, IL-политики неэффективны при работе с нестандартными начальными состояниями, такими как неожиданная позиция объекта или его полное или частичное окклюзирование. В таких ситуациях необходимы дополнительные демонстрации, чтобы IL-системы могли обеспечить высокую универсальность и надежность. Подобные ситуации часто встречаются в повседневной жизни: люди отрегулировывают окружающую среду для упрощения выполнения задачи. Например, вращают кружку для того, чтобы легче было захватить его, или двигают препятствие, чтобы получить доступ к цели. Мы предлагаем моделировать подобное поведение у роботов, чтобы они могли подготавливать окружение перед выполнением задачи. ## Метод Мы предлагаем ReSET — алгоритм, который автоматически редактирует сцену перед тем, как запустить политику IL. Решение включает следующие этапы: 1. **Диагностика нестандартного начального состояния**: Мы оцениваем, насколько состояние входит в распределение, задействуя task-agnostic human teleoperation data и action-agnostic human videos. 2. **Предсказание подходящих действий**: Мы моделируем действия, которые мог бы применить человек для переразмещения объектов и упрощения задачи. 3. **Реализация роботом**: Мы преобразуем предложенные действия в примитивы роботом, используя существующую модель политики IL. Эта стратегия позволяет сократить общее число демонстраций, необходимое для устойчивой и общительной работы. ## Результаты Мы проводили эксперименты на виртуальных и реальных сценах с различными задачами манипуляции. Результаты показывают, что ReSET позволяет улучшить универсальность и надежность IL-политик при одинаковом объеме обучающих данных. Мы сравнивали нашу модель с Diffusion Policies, VLAs и другими базовыми алгоритмами. В результате ReSET показала более высокую точность и большую устойчивость при выполнении задач в нестандартных начальных состояниях. ## Значимость Вычислительные эксперименты и практические исследования показали, что ReSET может быть применен в многочисленных манипулятивных задачах, включая домашние и промышленные сценарии. Основные преимущества: - Улучшенная универсальность IL-политик. - Относительно низкий затратный подход для достижения высокой надежности. - Увеличение гибкости в работе в условиях нестандартных начальных состояний. ## Выводы Мы представили ReSET — алгоритм, который мотивирует роботы воспроизводить роль человека в подготовке окружающей среды для упрощения задач. Наши теоретические

Abstract

Imitation learning (IL) has proven effective across a wide range of manipulation tasks. However, IL policies often struggle when faced with out-of-distribution observations; for instance, when the target object is in a previously unseen position or occluded by other objects. In these cases, extensive demonstrations are needed for current IL methods to reach robust and generalizable behaviors. But when humans are faced with these sorts of atypical initial states, we often rearrange the environment for more favorable task execution. For example, a person might rotate a coffee cup so that it is easier to grasp the handle, or push a box out of the way so they can directly grasp their target object. In this work we seek to equip robot learners with the same capability: enabling robots to prepare the environment before executing their given policy. We propose ReSET, an algorithm that takes initial states -- which are outside the policy's distribution -- and autonomously modifies object poses so that the restructured scene is similar to training data. Theoretically, we show that this two step process (rearranging the environment before rolling out the given policy) reduces the generalization gap. Practically, our ReSET algorithm combines action-agnostic human videos with task-agnostic teleoperation data to i) decide when to modify the scene, ii) predict what simplifying actions a human would take, and iii) map those predictions into robot action primitives. Comparisons with diffusion policies, VLAs, and other baselines show that using ReSET to prepare the environment enables more robust task execution with equal amounts of total training data. See videos at our project website: https://reset2025paper.github.io/

Ссылки и действия

Связанные статьи

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functi...

## Контекст Современные автоматизированные системы, такие как роботы и автономные транспортные средства, требуют надежн...

2025-09-24

Adaptive Model-Predictive Control of a Soft Continuum Robot Using a Physics-Info...

## Контекст Динамическое управление мягкими континуум-роботами (SCRs) представляет собой задачу высокой технологичности,...

2025-08-20

Belief-Conditioned One-Step Diffusion: Real-Time Trajectory Planning with Just-E...

## Контекст Увеличение числа различных задач, с которыми сталкиваются роботы в реальном мире, приводит к появлению сложн...

2025-08-19