Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision

2509.09893v1 cs.RO, cs.AI 2025-09-16
Авторы:

Hanbit Oh, Masaki Murooka, Tomohiro Motoda, Ryoichi Nakajo, Yukiyasu Domae

Резюме на русском

#### Контекст Imitation learning является обещающим подходом для обучения роботских агентов, однако обычные методы часто требуют большого объема данных, полученных либо многократными демонстрациями, либо случайным исследованием среды. Это не только усложняет процесс обучения, но также может привести к нежелательным столкновениям, особенно при выполнении задач с ограниченным клеточным расположением (например, взаимоприкладыванием штыря в отверстие). Такие ситуации влекут за собой необходимость вручную восстанавливать среду и приводят к дополнительным трудозатратам. Данное исследование адресует эти проблемы, предлагая Self-Augmented Robot Trajectory (SART) — фреймворк, позволяющий обучать политику только на одной демонстрации человека, при этом самостоятельно расширяя выборку данных с помощью автономного модифицирования методикой с учетом пределов точности, отмеченных демонстратором. #### Метод SART работает в двух этапах: (1) **Обучение по одной демонстрации** — человек предоставляет один пример действий, а сетка точности, представленная шаровыми покрытиями вокруг ключевых точек маршрута, автоматически аннотируется в среде; (2) **Самостоятельное расширение** — робот генерирует разнообразные, безопасные маршруты в пределах заданных точностных границ, при этом обеспечивая их слияние с исходной демонстрацией человека. Этот подход снижает необходимость вручную восстанавливать среду и позволяет роботу самостоятельно улучшать свои навыки в условиях минимального вмешательства человека. #### Результаты Эксперименты проводились в симуляционной среде и на реальных задачах манипуляции. Оценки показали, что SART достигает значительно больших вероятностей успеха по сравнению с политиками, обученными только на демонстрациях человека. Отчеты и видеоматериалы доступны на сайте проекта (ссылка: https://sites.google.com/view/sart-il). #### Значимость Предложенный подход может быть применен в различных областях, где требуется улучшение эффективности обучения роботских агентов с минимальным участием человека. Особый потенциал SART открывается в задачах с тесным пространственным режимом, таких как взаимоприкладывание штырей в отверстия. Данный подход снижает затраты на повторные демонстрации, обеспечивает безопасность и увеличивает эффективность сбора данных. #### Выводы Результаты показывают высокую эффективность SART в сравнении с классическими методами роботского обучения. Будущие исследования будут направлены на расширение фреймворка для управления более сложными задачами, включая те, что требуют динамического решения в процессе выполнения.

Abstract

Imitation learning is a promising paradigm for training robot agents; however, standard approaches typically require substantial data acquisition -- via numerous demonstrations or random exploration -- to ensure reliable performance. Although exploration reduces human effort, it lacks safety guarantees and often results in frequent collisions -- particularly in clearance-limited tasks (e.g., peg-in-hole) -- thereby, necessitating manual environmental resets and imposing additional human burden. This study proposes Self-Augmented Robot Trajectory (SART), a framework that enables policy learning from a single human demonstration, while safely expanding the dataset through autonomous augmentation. SART consists of two stages: (1) human teaching only once, where a single demonstration is provided and precision boundaries -- represented as spheres around key waypoints -- are annotated, followed by one environment reset; (2) robot self-augmentation, where the robot generates diverse, collision-free trajectories within these boundaries and reconnects to the original demonstration. This design improves the data collection efficiency by minimizing human effort while ensuring safety. Extensive evaluations in simulation and real-world manipulation tasks show that SART achieves substantially higher success rates than policies trained solely on human-collected demonstrations. Video results available at https://sites.google.com/view/sart-il .

Ссылки и действия