LodeStar: Long-horizon Dexterity via Synthetic Data Augmentation from Human Demonstrations
2508.17547v1
cs.RO, cs.AI, cs.LG
2025-08-27
Авторы:
Weikang Wan, Jiawei Fu, Xiaodi Yuan, Yifeng Zhu, Hao Su
Резюме на русском
## Контекст
Роботические системы способные выполнять длительные манипуляционные задачи с роботом-человеческой гранулярностью требуют значительных усилий в разработке. Эти задачи обычно включают не только физическую гранулярность, но также гладкую последовательность манипулятивных навыков, а также высшую приспособленность к изменениям в среде. Имитационное обучение позволяет захватить знания от человеческих демонстраций, однако получение богатых данных для этих целей является ресурсозатратным. В данной работе предлагается LodeStar — рамка для автоматической декомпозиции демонстраций на понятные семантическими навыки и создания произвольных демонстрационных наборов с помощью генеративных методов глубокого обучения. Этот подход позволяет значительно улучшить исполнение задач.
## Метод
LodeStar автоматически декомпозирует демонстрации на семантические навыки с помощью off-the-shelf моделей глубокого обучения. Далее, для разнообразия демонстраций используется обобщающее обучение с подкреплением (RL). Накопленные данные используются для обучения навыков в рамках модели Skill Routing Transformer (SRT). SRT эффективно склеивает навыки в цепочки для выполнения долгосрочных манипуляционных задач. Этот подход оптимизирован для обработки изменений в среде и позволяет добиться высокой гранулярности и долгосрочной логики.
## Результаты
Работа была протестирована на трех сложных задачах реального мира: извлечение объекта из комплексной среды, одноручное выкручивание крышки и многоручное выкручивание крышки. Эксперименты вы mosted, что LodeStar значительно улучшает производительность и устойчивость в сравнении с существующими методами. Обучение на синтетических данных позволило значительно увеличить точность и скорость обучения в сравнении с данными, полученными непосредственно с человека.
## Значимость
Предлагаемый подход имеет широкое применение в различных сферах, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь людям с ограниченными возможностями. Основные преимущества LodeStar заключаются в своей объемности, гибкости и возможности использования небольшого набора демонстраций для обучения. Будущие исследования будут нацелены на улучшение точности и скорости обучения, а также на подключение к более сложным задачам, включая те, что требуют взаимодействия с людьми.
## Выводы
LodeStar демонстрирует успешную имплементацию новизны в обучении роботов для выполнения длительных манипуляционных задач. Этот подход позволяет эффективно обучать роботов на основе небольшого числа демонстраций, значительно повышая точность и устойчивость испо
Abstract
Developing robotic systems capable of robustly executing long-horizon
manipulation tasks with human-level dexterity is challenging, as such tasks
require both physical dexterity and seamless sequencing of manipulation skills
while robustly handling environment variations. While imitation learning offers
a promising approach, acquiring comprehensive datasets is resource-intensive.
In this work, we propose a learning framework and system LodeStar that
automatically decomposes task demonstrations into semantically meaningful
skills using off-the-shelf foundation models, and generates diverse synthetic
demonstration datasets from a few human demos through reinforcement learning.
These sim-augmented datasets enable robust skill training, with a Skill Routing
Transformer (SRT) policy effectively chaining the learned skills together to
execute complex long-horizon manipulation tasks. Experimental evaluations on
three challenging real-world long-horizon dexterous manipulation tasks
demonstrate that our approach significantly improves task performance and
robustness compared to previous baselines. Videos are available at
lodestar-robot.github.io.
Ссылки и действия
Дополнительные ресурсы: