Action-Constrained Imitation Learning
2508.14379v1
cs.RO, cs.LG
2025-08-22
Авторы:
Chia-Han Yeh, Tse-Sheng Nan, Risto Vuorio, Wei Hung, Hung-Yen Wu, Shao-Hua Sun, Ping-Chun Hsieh
Резюме на русском
## Контекст
Robot-контрольные и ресурс-аллокационные приложения чрезвычайно важны для функционирования высокотехнологичных систем. Одним из ключевых аспектов этих приложений является обеспечение безопасности в ходе исполнения задач. Несмотря на то, что традиционные подходы к policy learning включают широкие действия, подобные поведение может привести к нежелательным результатам, таким как коллизии или ресурсовая неэффективность. Для решения этой проблемы было предложено введение action constraints, чтобы гарантировать строгую безопасность и эффективность.
Однако внедрение action constraints в алгоритмы imitation learning не так просто и требует учета нескольких нюансов. В частности, существует проблема несоответствия occupancy measure между экспертом (который может действовать в более широком диапазоне действий) и imitator (который ограничен в action space). Это несоответствие требует новых подходов, чтобы эффективно обучать imitator при соблюдении action constraints.
## Метод
Мы предлагаем новый подход к Action-Constrained Imitation Learning (ACIL), который называется DTWIL. Он основывается на методе Dynamic Time Warping (DTW) для решения проблемы несоответствия occupancy measure. Мы реализуем DTWIL в виде Model Predictive Control (MPC), что позволяет нам рекурсивно решать задачу безопасного и эффективного обучения.
В DTWIL мы заменяем оригинальные данные эксперта на сгенерированные surrogate trajectories, которые более тесно адаптируются к action constraints imitator. Эти surrogate trajectories создаются путем поиска минимума DTW distance между экспертными и surrogate данными, чтобы гарантировать более близкий align со стационарными требованиями. Этот подход позволяет уменьшить разброс во взаимодействии с expert data и увеличить sample efficiency.
## Результаты
Мы провели ряд экспериментов для оценки эффективности DTWIL. Тесты проводились на моделях robot control и resource allocation с разными action constraints. Для этих тестов мы использовали данные от эксперта с более широким action space, а также сгенерированные surrogate datasets. Модели, обученные с помощью DTWIL, показали значительное улучшение в sample efficiency и performance в сравнении с традиционными imitation learning algorithms, такими как GAIL и BC. Эти результаты подтверждают то, что DTWIL значительно улучшает надежность и эффективность обучения в ситуациях, когда action constraints применяются.
## Значимость
DTWIL имеет широкие применения в сферах, где требуется обеспечение безопасности в robot-контроллере и ресурс-аллокационных системах. Например, в robotics, где необходимо избежать коллизий, и в resource-allocation applications, где требуется эффективное использование ресурсов. Наш подход позволяет не только обеспечить безопасность, но и увеличить sample efficiency, что является ключевым преимуществом в задачах, требующих быстрого обучения в реальном времени.
## Выводы
Мы представили новый подход к Action-Constrained Imitation Learning, который решает проблему несоответ
Abstract
Policy learning under action constraints plays a central role in ensuring
safe behaviors in various robot control and resource allocation applications.
In this paper, we study a new problem setting termed Action-Constrained
Imitation Learning (ACIL), where an action-constrained imitator aims to learn
from a demonstrative expert with larger action space. The fundamental challenge
of ACIL lies in the unavoidable mismatch of occupancy measure between the
expert and the imitator caused by the action constraints. We tackle this
mismatch through \textit{trajectory alignment} and propose DTWIL, which
replaces the original expert demonstrations with a surrogate dataset that
follows similar state trajectories while adhering to the action constraints.
Specifically, we recast trajectory alignment as a planning problem and solve it
via Model Predictive Control, which aligns the surrogate trajectories with the
expert trajectories based on the Dynamic Time Warping (DTW) distance. Through
extensive experiments, we demonstrate that learning from the dataset generated
by DTWIL significantly enhances performance across multiple robot control tasks
and outperforms various benchmark imitation learning algorithms in terms of
sample efficiency. Our code is publicly available at
https://github.com/NYCU-RL-Bandits-Lab/ACRL-Baselines.
Ссылки и действия
Дополнительные ресурсы: