Action-Constrained Imitation Learning

2508.14379v1 cs.RO, cs.LG 2025-08-22

Авторы:

Chia-Han Yeh, Tse-Sheng Nan, Risto Vuorio, Wei Hung, Hung-Yen Wu, Shao-Hua Sun, Ping-Chun Hsieh

Резюме на русском

## Контекст Robot-контрольные и ресурс-аллокационные приложения чрезвычайно важны для функционирования высокотехнологичных систем. Одним из ключевых аспектов этих приложений является обеспечение безопасности в ходе исполнения задач. Несмотря на то, что традиционные подходы к policy learning включают широкие действия, подобные поведение может привести к нежелательным результатам, таким как коллизии или ресурсовая неэффективность. Для решения этой проблемы было предложено введение action constraints, чтобы гарантировать строгую безопасность и эффективность. Однако внедрение action constraints в алгоритмы imitation learning не так просто и требует учета нескольких нюансов. В частности, существует проблема несоответствия occupancy measure между экспертом (который может действовать в более широком диапазоне действий) и imitator (который ограничен в action space). Это несоответствие требует новых подходов, чтобы эффективно обучать imitator при соблюдении action constraints. ## Метод Мы предлагаем новый подход к Action-Constrained Imitation Learning (ACIL), который называется DTWIL. Он основывается на методе Dynamic Time Warping (DTW) для решения проблемы несоответствия occupancy measure. Мы реализуем DTWIL в виде Model Predictive Control (MPC), что позволяет нам рекурсивно решать задачу безопасного и эффективного обучения. В DTWIL мы заменяем оригинальные данные эксперта на сгенерированные surrogate trajectories, которые более тесно адаптируются к action constraints imitator. Эти surrogate trajectories создаются путем поиска минимума DTW distance между экспертными и surrogate данными, чтобы гарантировать более близкий align со стационарными требованиями. Этот подход позволяет уменьшить разброс во взаимодействии с expert data и увеличить sample efficiency. ## Результаты Мы провели ряд экспериментов для оценки эффективности DTWIL. Тесты проводились на моделях robot control и resource allocation с разными action constraints. Для этих тестов мы использовали данные от эксперта с более широким action space, а также сгенерированные surrogate datasets. Модели, обученные с помощью DTWIL, показали значительное улучшение в sample efficiency и performance в сравнении с традиционными imitation learning algorithms, такими как GAIL и BC. Эти результаты подтверждают то, что DTWIL значительно улучшает надежность и эффективность обучения в ситуациях, когда action constraints применяются. ## Значимость DTWIL имеет широкие применения в сферах, где требуется обеспечение безопасности в robot-контроллере и ресурс-аллокационных системах. Например, в robotics, где необходимо избежать коллизий, и в resource-allocation applications, где требуется эффективное использование ресурсов. Наш подход позволяет не только обеспечить безопасность, но и увеличить sample efficiency, что является ключевым преимуществом в задачах, требующих быстрого обучения в реальном времени. ## Выводы Мы представили новый подход к Action-Constrained Imitation Learning, который решает проблему несоответ

Abstract

Policy learning under action constraints plays a central role in ensuring safe behaviors in various robot control and resource allocation applications. In this paper, we study a new problem setting termed Action-Constrained Imitation Learning (ACIL), where an action-constrained imitator aims to learn from a demonstrative expert with larger action space. The fundamental challenge of ACIL lies in the unavoidable mismatch of occupancy measure between the expert and the imitator caused by the action constraints. We tackle this mismatch through \textit{trajectory alignment} and propose DTWIL, which replaces the original expert demonstrations with a surrogate dataset that follows similar state trajectories while adhering to the action constraints. Specifically, we recast trajectory alignment as a planning problem and solve it via Model Predictive Control, which aligns the surrogate trajectories with the expert trajectories based on the Dynamic Time Warping (DTW) distance. Through extensive experiments, we demonstrate that learning from the dataset generated by DTWIL significantly enhances performance across multiple robot control tasks and outperforms various benchmark imitation learning algorithms in terms of sample efficiency. Our code is publicly available at https://github.com/NYCU-RL-Bandits-Lab/ACRL-Baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Action-Constrained Imitation Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Cross-embodied Co-design for Dexterous Hands

OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guide...

Digital Twin-based Control Co-Design of Full Vehicle Active Suspensions via Deep...

Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment...

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

Навигация