On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances
2509.16746v1
eess.SY, cs.LG, cs.SY
2025-09-24
Авторы:
Sayak Mukherjee, Ramij R. Hossain, Mahantesh Halappanavar
Резюме на русском
## Контекст
Область исследования связана с автоматическим регулированием систем, в частности, с методами оптимизации временных регионов для системы управления, обеспечивающей максимальную производительность при ограничении потребления энергии. Известно, что динамические системы часто подвержены внешним воздействиям, которые могут привести к нежелательным результатам. Это в частности касается систем с неизвестными внешними воздействиями, которые необходимо учитывать в процессе проектирования. Одним из актуальных подходов является adaptive dynamic programming (ADP), позволяющий строить алгоритмы управления, оптимизирующие регуляторную функцию в условиях неопределенности. Однако существуют технические ограничения в плане гарантий стабильности и применимости таких подходов в реальных системах. Целью данного исследования является разработка метода, обеспечивающего локальную стабильность и корректную оптимизацию в условиях неизвестных внешних воздействий.
## Метод
Методология основывается на обучаемых алгоритмах управления, которые используют методы adaptive dynamic programming (ADP), стабилизирующие систему в условиях неизвестных внешних воздействий. Алгоритмы ADP использует гибридную модель системы, в которой учитывается поток внешних воздействий. Для гарантии стабильности используется метод Lyapunov, который позволяет проверить корректность управляющих принципов в рамках системы. Для получения решений применяется метод Маркова, который приводит к стохастической оптимизации контроллера. Метод ADP интегрируется с методом машинного обучения, чтобы получить приближенные решения для системы. Архитектура решения включает в себя нейросетевые модели для регулярного оптимизационного процесса и методы вывода, позволяющие учитывать неизвестные внешние воздействия.
## Результаты
Результаты исследования показывают, что подход ADP может эффективно решать задачи управления системами в условиях неизвестных внешних воздействий. На основе экспериментов был проведен сравнительный анализ с другими подходами, такими как моделирование и аналитические методы, и был доказано, что ADP позволяет достичь более высокой точности и стабильности управления. Были получены результаты, подтверждающие, что метод ADP, использующий методы машинного обучения, обеспечивает локальную стабильность и позволяет сделать приближенные оптимизационные решения в условиях неизвестных параметров системы.
## Значимость
Данный подход может быть применен в различных областях, таких как авиация, автомобильная промышленность и промышленное регулирование. Особенно важно, что он может быть применен в система
Abstract
We analyze offline designs of linear quadratic regulator (LQR) strategies
with uncertain disturbances. First, we consider the scenario where the
exogenous variable can be estimated in a controlled environment, and
subsequently, consider a more practical and challenging scenario where it is
unknown in a stochastic setting. Our approach builds on the fundamental
learning-based framework of adaptive dynamic programming (ADP), combined with a
Lyapunov-based analytical methodology to design the algorithms and derive
sample-based approximations motivated from the Markov decision process
(MDP)-based approaches. For the scenario involving non-measurable disturbances,
we further establish stability and convergence guarantees for the learned
control gains under sample-based approximations. The overall methodology
emphasizes simplicity while providing rigorous guarantees. Finally, numerical
experiments focus on the intricacies and validations for the design of offline
continuous-time LQR with exogenous disturbances.
Ссылки и действия
Дополнительные ресурсы: