Self-evolved Imitation Learning in Simulated World

2509.19460v1 cs.RO, cs.AI, cs.LG 2025-09-26
Авторы:

Yifan Ye, Jun Cen, Jing Chen, Zhihe Lu

Резюме на русском

################################# ## Контекст ################################# Imitation learning, как метод обучения моделей, набирает обороты в современных искусственных интеллектах. Он заключается в том, чтобы подражать поведению эксперта в задачах, которые могут быть сложно выразить через подробные модели. Однако, обучение общих агентов, способных решать разнообразные задачи, часто требует больших массивов экспертных демонстраций. Эти демонстрации трудоёмки в сборе, дороги в поддержании и, возможно, ограничены в количестве. Для решения проблемы ограниченной супервайзированной информации предлагается Self-Evolved Imitation Learning (SEIL) — фреймворк, позволяющий улучшать модель с помощью имитационного обучения в симуляторе. ################################# ## Метод ################################# SEIL — это уникальный подход к обучению модели с малой супервайзированной информацией. Он включает несколько ключевых технических компонентов: 1. **Прогрессивное обучение**: Модель начинает решать задачи в симуляторе, где собираются успешные траектории. Эти траектории используются для последовательного уточнения модели. 2. **Двойное увеличение демонстрационной выборки**: - **Модельный уровень**: EMA-модель (Exponential Moving Average) генерирует дополнительные демонстрации, расширяя диапазон поведения. - **Среды уровень**: Механизм, внедряющий небольшие изменения в начальных положениями объектов, увеличивает разнообразие демонстраций. 3. **Селектор показателей**: Использование легковесного селектора, который отбирает траектории, дополняющие и достаточно релевантные для базы данных. Эти методы обеспечивают эффективное и качественное обучение, даже при небольших объёмах данных. ################################# ## Результаты ################################# Эксперименты проводились на бенчмарке LIBERO, где SEIL показал новую планку по эффективности в сценариях с малой супервайзированной информацией. Он достиг высокой точности с меньшим числом обучающих примеров по сравнению с соревнователями. Ключевые результаты: - Значительное улучшение в задачах, требующих малой супервайзированной информации. - Увеличение разнообразия демонстрационных данных благодаря использованию EMA-модели и среды изменений. - Улучшенная структура селектора, обеспечивающая качественную выборку демонстрационных данных. Код доступен на GitHub: https://github.com/Jasper-aaa/SEIL.git. ################################# ## Значимость ################################# SEIL открывает новые перспективы в области малосупервайзированного обучения. Его применения могут распространиться на разнообразные задачи, где экспертные данные сложно получить, вроде: - Научных моделей, где обучение требует дорогих и сложных экспериментов. - Реальных ситуациях, таких как управление робота

Abstract

Imitation learning has been a trend recently, yet training a generalist agent across multiple tasks still requires large-scale expert demonstrations, which are costly and labor-intensive to collect. To address the challenge of limited supervision, we propose Self-Evolved Imitation Learning (SEIL), a framework that progressively improves a few-shot model through simulator interactions. The model first attempts tasksin the simulator, from which successful trajectories are collected as new demonstrations for iterative refinement. To enhance the diversity of these demonstrations, SEIL employs dual-level augmentation: (i) Model-level, using an Exponential Moving Average (EMA) model to collaborate with the primary model, and (ii) Environment-level, introducing slight variations in initial object positions. We further introduce a lightweight selector that filters complementary and informative trajectories from the generated pool to ensure demonstration quality. These curated samples enable the model to achieve competitive performance with far fewer training examples. Extensive experiments on the LIBERO benchmark show that SEIL achieves a new state-of-the-art performance in few-shot imitation learning scenarios. Code is available at https://github.com/Jasper-aaa/SEIL.git.

Ссылки и действия