Offline Imitation Learning upon Arbitrary Demonstrations by Pre-Training Dynamics Representations

2508.14383v1 cs.RO, cs.LG 2025-08-22
Авторы:

Haitong Ma, Bo Dai, Zhaolin Ren, Yebin Wang, Na Li

Резюме на русском

Описание статьи по структуре: ## Контекст Область исследования — offline imitation learning (IL) — целевая задача, связанная с повторением поведения эксперта в задачах управления, когда доступ к полной динамике среды ограничен. Ограниченная доступность информации становится главной проблемой для масштабирования IL. Это мотивирует исследователей развивать методы, которые могут работать с ограниченным доступом к данным эксперта. Особенно сложно становится в случаях, когда подготовленные демонстрации требуются для управления сложными системами, такими как роботы-квадрупеди, где данные демонстраций ограничены и дорогостоящи. Авторы предлагают решение, основанное на предварительной обучении динамических представлений, что позволяет повысить эффективность IL даже при ограниченных данных. ## Метод Предлагаемый метод основывается на предварительном обучении динамических представлений, выделенных из факторизации транзитивных динамик. Теоретически показано, что оптимальные решения offline IL могут быть получены в этом пространстве представлений, что существенно сокращает объем параметров, необходимых для управления. Для обучения этих представлений используется модифицированная функция потерь на основе новостроенных оценок, которая позволяет эффективно учитывать различные данные. Эта модель позволяет использовать массу данных, собранных без участия экспертов, и эффективно перекладывает знания из симуляции на реальный мир, что устраняет проблему ограниченных данных. ## Результаты Исследования проводятся на данных MuJoCo и реальных квадрупедиях. Алгоритм продемонстрировал возможность хорошо моделировать экспертные политики даже при использовании минимальных данных, таких как одна траектория. На реальных роботах, особенно на квадрупедиах, алгоритм показал преимущества предварительного обучения динамических представлений, позволяя роботу выучивать поведение с небольшим количеством реальных демонстраций. Это подтверждает эффективность стратегии предварительного обучения и ее применимость к решению проблемы ограниченных данных в IL. ## Значимость Основными преимуществами нового подхода являются увеличение эффективности IL с ограниченными данными и универсальность изученного метода в различных динамических системах. Это может быть применено в различных областях, где важно повторить поведение эксперта с ограниченными данными, например, в робототехнике, автомобильных системах и других системах управления. Этот подход позволяет масштабировать IL, уменьшая необходимость в дорогостоящих данных экспертов и расширяя границы применения систем управления. ## Выводы Предло

Abstract

Limited data has become a major bottleneck in scaling up offline imitation learning (IL). In this paper, we propose enhancing IL performance under limited expert data by introducing a pre-training stage that learns dynamics representations, derived from factorizations of the transition dynamics. We first theoretically justify that the optimal decision variable of offline IL lies in the representation space, significantly reducing the parameters to learn in the downstream IL. Moreover, the dynamics representations can be learned from arbitrary data collected with the same dynamics, allowing the reuse of massive non-expert data and mitigating the limited data issues. We present a tractable loss function inspired by noise contrastive estimation to learn the dynamics representations at the pre-training stage. Experiments on MuJoCo demonstrate that our proposed algorithm can mimic expert policies with as few as a single trajectory. Experiments on real quadrupeds show that we can leverage pre-trained dynamics representations from simulator data to learn to walk from a few real-world demonstrations.

Ссылки и действия