In-Context Policy Adaptation via Cross-Domain Skill Diffusion
2509.04535v1
cs.RO, cs.AI, cs.LG
2025-09-09
Авторы:
Minjong Yoo, Woo Kyung Kim, Honguk Woo
Резюме на русском
#### Контекст
В области управления и автоматизации наблюдается рост интереса к методам, позволяющим быстро адаптировать политики управления в различных сценариях. Однако, адаптация политик в долгосрочных задачах часто сталкивается с трудностями при ограниченных данных и необходимости изменений в существующих моделях. Эти ограничения становятся критичными в сценариях, где время отклика и эффективность критичны, например в робототехнических системах и системах автономного управления. Данная работа фокусируется на разработке решения, которое обеспечивает эффективную адаптацию политик управления в таких условиях, используя методы обучения скрытых скилов и cross-domain skill diffusion.
#### Метод
Разработанная ICPAD-фреймворк основывается на схеме cross-domain skill diffusion, которая объединяет обучение доменно-независимых прототипных скилов и доменно-специфического skill adapter. Данные прототипы скилов выступают в роли общих моделей поведения, которые могут быть переданы между различными доменами, обеспечивая переносимость. Для улучшения адаптации к конкретному домену вводится динамическая схема domain prompting, которая во время работы адаптирует skill adapter к новому домену. Методология основывается на моделировании и изучении кросс-доменных симметрий, что позволяет эффективно передавать и адаптировать скрытые скилы в новых условиях.
#### Результаты
Использованы данные из симуляторов Metaworld и CARLA, представляющих различные сценарии robotic manipulation и autonomous driving. Эксперименты показали, что ICPAD-фреймворк превосходит существующие подходы в сценариях с ограниченными данными и различными особенностями домена, такими как различия в динамике среды, визуальной обстановке и характеристик задач. Данные результаты подтверждают высокую эффективность ICPAD в условиях строгих ограничений на моделирование и обучение.
#### Значимость
ICPAD-фреймворк может быть применен в различных сферах, где необходима быстрая адаптация политик управления в новых условиях, таких как робототехнические системы, автомобильные системы и даже системы для автоматизации производственных процессов. Его преимущества заключаются в том, что он может работать с ограниченными данными, не требуя изменений в существующих моделях, и обеспечивает высокую переносимость между доменами. Такой подход имеет потенциал для ускорения развития интеллектуальных систем, делая их более универсальными и эффективными в различных средах.
#### Выводы
Результаты ICPAD показывают, что он является эффективным инструментом для быстрой адаптации политик управления в долгосрочных задачах, в том числе в сценариях, где требуется высокая переносимость и ограниченные ресурсы для моделировани
Abstract
In this work, we present an in-context policy adaptation (ICPAD) framework
designed for long-horizon multi-task environments, exploring diffusion-based
skill learning techniques in cross-domain settings. The framework enables rapid
adaptation of skill-based reinforcement learning policies to diverse target
domains, especially under stringent constraints on no model updates and only
limited target domain data. Specifically, the framework employs a cross-domain
skill diffusion scheme, where domain-agnostic prototype skills and a
domain-grounded skill adapter are learned jointly and effectively from an
offline dataset through cross-domain consistent diffusion processes. The
prototype skills act as primitives for common behavior representations of
long-horizon policies, serving as a lingua franca to bridge different domains.
Furthermore, to enhance the in-context adaptation performance, we develop a
dynamic domain prompting scheme that guides the diffusion-based skill adapter
toward better alignment with the target domain. Through experiments with
robotic manipulation in Metaworld and autonomous driving in CARLA, we show that
our $\oursol$ framework achieves superior policy adaptation performance under
limited target domain data conditions for various cross-domain configurations
including differences in environment dynamics, agent embodiment, and task
horizon.
Ссылки и действия
Дополнительные ресурсы: