LodeStar: Long-horizon Dexterity via Synthetic Data Augmentation from Human Demonstrations

2508.17547v1 cs.RO, cs.AI, cs.LG 2025-08-27
Авторы:

Weikang Wan, Jiawei Fu, Xiaodi Yuan, Yifeng Zhu, Hao Su

Резюме на русском

## Контекст Роботические системы способные выполнять длительные манипуляционные задачи с роботом-человеческой гранулярностью требуют значительных усилий в разработке. Эти задачи обычно включают не только физическую гранулярность, но также гладкую последовательность манипулятивных навыков, а также высшую приспособленность к изменениям в среде. Имитационное обучение позволяет захватить знания от человеческих демонстраций, однако получение богатых данных для этих целей является ресурсозатратным. В данной работе предлагается LodeStar — рамка для автоматической декомпозиции демонстраций на понятные семантическими навыки и создания произвольных демонстрационных наборов с помощью генеративных методов глубокого обучения. Этот подход позволяет значительно улучшить исполнение задач. ## Метод LodeStar автоматически декомпозирует демонстрации на семантические навыки с помощью off-the-shelf моделей глубокого обучения. Далее, для разнообразия демонстраций используется обобщающее обучение с подкреплением (RL). Накопленные данные используются для обучения навыков в рамках модели Skill Routing Transformer (SRT). SRT эффективно склеивает навыки в цепочки для выполнения долгосрочных манипуляционных задач. Этот подход оптимизирован для обработки изменений в среде и позволяет добиться высокой гранулярности и долгосрочной логики. ## Результаты Работа была протестирована на трех сложных задачах реального мира: извлечение объекта из комплексной среды, одноручное выкручивание крышки и многоручное выкручивание крышки. Эксперименты вы mosted, что LodeStar значительно улучшает производительность и устойчивость в сравнении с существующими методами. Обучение на синтетических данных позволило значительно увеличить точность и скорость обучения в сравнении с данными, полученными непосредственно с человека. ## Значимость Предлагаемый подход имеет широкое применение в различных сферах, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь людям с ограниченными возможностями. Основные преимущества LodeStar заключаются в своей объемности, гибкости и возможности использования небольшого набора демонстраций для обучения. Будущие исследования будут нацелены на улучшение точности и скорости обучения, а также на подключение к более сложным задачам, включая те, что требуют взаимодействия с людьми. ## Выводы LodeStar демонстрирует успешную имплементацию новизны в обучении роботов для выполнения длительных манипуляционных задач. Этот подход позволяет эффективно обучать роботов на основе небольшого числа демонстраций, значительно повышая точность и устойчивость испо

Abstract

Developing robotic systems capable of robustly executing long-horizon manipulation tasks with human-level dexterity is challenging, as such tasks require both physical dexterity and seamless sequencing of manipulation skills while robustly handling environment variations. While imitation learning offers a promising approach, acquiring comprehensive datasets is resource-intensive. In this work, we propose a learning framework and system LodeStar that automatically decomposes task demonstrations into semantically meaningful skills using off-the-shelf foundation models, and generates diverse synthetic demonstration datasets from a few human demos through reinforcement learning. These sim-augmented datasets enable robust skill training, with a Skill Routing Transformer (SRT) policy effectively chaining the learned skills together to execute complex long-horizon manipulation tasks. Experimental evaluations on three challenging real-world long-horizon dexterous manipulation tasks demonstrate that our approach significantly improves task performance and robustness compared to previous baselines. Videos are available at lodestar-robot.github.io.

Ссылки и действия