Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision
2509.09893v1
cs.RO, cs.AI
2025-09-16
Авторы:
Hanbit Oh, Masaki Murooka, Tomohiro Motoda, Ryoichi Nakajo, Yukiyasu Domae
Резюме на русском
#### Контекст
Imitation learning является обещающим подходом для обучения роботских агентов, однако обычные методы часто требуют большого объема данных, полученных либо многократными демонстрациями, либо случайным исследованием среды. Это не только усложняет процесс обучения, но также может привести к нежелательным столкновениям, особенно при выполнении задач с ограниченным клеточным расположением (например, взаимоприкладыванием штыря в отверстие). Такие ситуации влекут за собой необходимость вручную восстанавливать среду и приводят к дополнительным трудозатратам. Данное исследование адресует эти проблемы, предлагая Self-Augmented Robot Trajectory (SART) — фреймворк, позволяющий обучать политику только на одной демонстрации человека, при этом самостоятельно расширяя выборку данных с помощью автономного модифицирования методикой с учетом пределов точности, отмеченных демонстратором.
#### Метод
SART работает в двух этапах: (1) **Обучение по одной демонстрации** — человек предоставляет один пример действий, а сетка точности, представленная шаровыми покрытиями вокруг ключевых точек маршрута, автоматически аннотируется в среде; (2) **Самостоятельное расширение** — робот генерирует разнообразные, безопасные маршруты в пределах заданных точностных границ, при этом обеспечивая их слияние с исходной демонстрацией человека. Этот подход снижает необходимость вручную восстанавливать среду и позволяет роботу самостоятельно улучшать свои навыки в условиях минимального вмешательства человека.
#### Результаты
Эксперименты проводились в симуляционной среде и на реальных задачах манипуляции. Оценки показали, что SART достигает значительно больших вероятностей успеха по сравнению с политиками, обученными только на демонстрациях человека. Отчеты и видеоматериалы доступны на сайте проекта (ссылка: https://sites.google.com/view/sart-il).
#### Значимость
Предложенный подход может быть применен в различных областях, где требуется улучшение эффективности обучения роботских агентов с минимальным участием человека. Особый потенциал SART открывается в задачах с тесным пространственным режимом, таких как взаимоприкладывание штырей в отверстия. Данный подход снижает затраты на повторные демонстрации, обеспечивает безопасность и увеличивает эффективность сбора данных.
#### Выводы
Результаты показывают высокую эффективность SART в сравнении с классическими методами роботского обучения. Будущие исследования будут направлены на расширение фреймворка для управления более сложными задачами, включая те, что требуют динамического решения в процессе выполнения.
Abstract
Imitation learning is a promising paradigm for training robot agents;
however, standard approaches typically require substantial data acquisition --
via numerous demonstrations or random exploration -- to ensure reliable
performance. Although exploration reduces human effort, it lacks safety
guarantees and often results in frequent collisions -- particularly in
clearance-limited tasks (e.g., peg-in-hole) -- thereby, necessitating manual
environmental resets and imposing additional human burden. This study proposes
Self-Augmented Robot Trajectory (SART), a framework that enables policy
learning from a single human demonstration, while safely expanding the dataset
through autonomous augmentation. SART consists of two stages: (1) human
teaching only once, where a single demonstration is provided and precision
boundaries -- represented as spheres around key waypoints -- are annotated,
followed by one environment reset; (2) robot self-augmentation, where the robot
generates diverse, collision-free trajectories within these boundaries and
reconnects to the original demonstration. This design improves the data
collection efficiency by minimizing human effort while ensuring safety.
Extensive evaluations in simulation and real-world manipulation tasks show that
SART achieves substantially higher success rates than policies trained solely
on human-collected demonstrations. Video results available at
https://sites.google.com/view/sart-il .
Ссылки и действия
Дополнительные ресурсы: