In-Context Policy Adaptation via Cross-Domain Skill Diffusion

2509.04535v1 cs.RO, cs.AI, cs.LG 2025-09-09

Авторы:

Minjong Yoo, Woo Kyung Kim, Honguk Woo

Резюме на русском

#### Контекст В области управления и автоматизации наблюдается рост интереса к методам, позволяющим быстро адаптировать политики управления в различных сценариях. Однако, адаптация политик в долгосрочных задачах часто сталкивается с трудностями при ограниченных данных и необходимости изменений в существующих моделях. Эти ограничения становятся критичными в сценариях, где время отклика и эффективность критичны, например в робототехнических системах и системах автономного управления. Данная работа фокусируется на разработке решения, которое обеспечивает эффективную адаптацию политик управления в таких условиях, используя методы обучения скрытых скилов и cross-domain skill diffusion. #### Метод Разработанная ICPAD-фреймворк основывается на схеме cross-domain skill diffusion, которая объединяет обучение доменно-независимых прототипных скилов и доменно-специфического skill adapter. Данные прототипы скилов выступают в роли общих моделей поведения, которые могут быть переданы между различными доменами, обеспечивая переносимость. Для улучшения адаптации к конкретному домену вводится динамическая схема domain prompting, которая во время работы адаптирует skill adapter к новому домену. Методология основывается на моделировании и изучении кросс-доменных симметрий, что позволяет эффективно передавать и адаптировать скрытые скилы в новых условиях. #### Результаты Использованы данные из симуляторов Metaworld и CARLA, представляющих различные сценарии robotic manipulation и autonomous driving. Эксперименты показали, что ICPAD-фреймворк превосходит существующие подходы в сценариях с ограниченными данными и различными особенностями домена, такими как различия в динамике среды, визуальной обстановке и характеристик задач. Данные результаты подтверждают высокую эффективность ICPAD в условиях строгих ограничений на моделирование и обучение. #### Значимость ICPAD-фреймворк может быть применен в различных сферах, где необходима быстрая адаптация политик управления в новых условиях, таких как робототехнические системы, автомобильные системы и даже системы для автоматизации производственных процессов. Его преимущества заключаются в том, что он может работать с ограниченными данными, не требуя изменений в существующих моделях, и обеспечивает высокую переносимость между доменами. Такой подход имеет потенциал для ускорения развития интеллектуальных систем, делая их более универсальными и эффективными в различных средах. #### Выводы Результаты ICPAD показывают, что он является эффективным инструментом для быстрой адаптации политик управления в долгосрочных задачах, в том числе в сценариях, где требуется высокая переносимость и ограниченные ресурсы для моделировани

Abstract

In this work, we present an in-context policy adaptation (ICPAD) framework designed for long-horizon multi-task environments, exploring diffusion-based skill learning techniques in cross-domain settings. The framework enables rapid adaptation of skill-based reinforcement learning policies to diverse target domains, especially under stringent constraints on no model updates and only limited target domain data. Specifically, the framework employs a cross-domain skill diffusion scheme, where domain-agnostic prototype skills and a domain-grounded skill adapter are learned jointly and effectively from an offline dataset through cross-domain consistent diffusion processes. The prototype skills act as primitives for common behavior representations of long-horizon policies, serving as a lingua franca to bridge different domains. Furthermore, to enhance the in-context adaptation performance, we develop a dynamic domain prompting scheme that guides the diffusion-based skill adapter toward better alignment with the target domain. Through experiments with robotic manipulation in Metaworld and autonomous driving in CARLA, we show that our $\oursol$ framework achieves superior policy adaptation performance under limited target domain data conditions for various cross-domain configurations including differences in environment dynamics, agent embodiment, and task horizon.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

In-Context Policy Adaptation via Cross-Domain Skill Diffusion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Autonomous Reinforcement Learning Robot Control with Intel's Loihi 2 Neuromorphi...

Real-World Reinforcement Learning of Active Perception Behaviors

Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical...

Learning Sim-to-Real Humanoid Locomotion in 15 Minutes

Phase-Adaptive LLM Framework with Multi-Stage Validation for Construction Robot ...

Навигация