On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances

2509.16746v1 eess.SY, cs.LG, cs.SY 2025-09-24

Авторы:

Sayak Mukherjee, Ramij R. Hossain, Mahantesh Halappanavar

Резюме на русском

## Контекст Область исследования связана с автоматическим регулированием систем, в частности, с методами оптимизации временных регионов для системы управления, обеспечивающей максимальную производительность при ограничении потребления энергии. Известно, что динамические системы часто подвержены внешним воздействиям, которые могут привести к нежелательным результатам. Это в частности касается систем с неизвестными внешними воздействиями, которые необходимо учитывать в процессе проектирования. Одним из актуальных подходов является adaptive dynamic programming (ADP), позволяющий строить алгоритмы управления, оптимизирующие регуляторную функцию в условиях неопределенности. Однако существуют технические ограничения в плане гарантий стабильности и применимости таких подходов в реальных системах. Целью данного исследования является разработка метода, обеспечивающего локальную стабильность и корректную оптимизацию в условиях неизвестных внешних воздействий. ## Метод Методология основывается на обучаемых алгоритмах управления, которые используют методы adaptive dynamic programming (ADP), стабилизирующие систему в условиях неизвестных внешних воздействий. Алгоритмы ADP использует гибридную модель системы, в которой учитывается поток внешних воздействий. Для гарантии стабильности используется метод Lyapunov, который позволяет проверить корректность управляющих принципов в рамках системы. Для получения решений применяется метод Маркова, который приводит к стохастической оптимизации контроллера. Метод ADP интегрируется с методом машинного обучения, чтобы получить приближенные решения для системы. Архитектура решения включает в себя нейросетевые модели для регулярного оптимизационного процесса и методы вывода, позволяющие учитывать неизвестные внешние воздействия. ## Результаты Результаты исследования показывают, что подход ADP может эффективно решать задачи управления системами в условиях неизвестных внешних воздействий. На основе экспериментов был проведен сравнительный анализ с другими подходами, такими как моделирование и аналитические методы, и был доказано, что ADP позволяет достичь более высокой точности и стабильности управления. Были получены результаты, подтверждающие, что метод ADP, использующий методы машинного обучения, обеспечивает локальную стабильность и позволяет сделать приближенные оптимизационные решения в условиях неизвестных параметров системы. ## Значимость Данный подход может быть применен в различных областях, таких как авиация, автомобильная промышленность и промышленное регулирование. Особенно важно, что он может быть применен в система

Abstract

We analyze offline designs of linear quadratic regulator (LQR) strategies with uncertain disturbances. First, we consider the scenario where the exogenous variable can be estimated in a controlled environment, and subsequently, consider a more practical and challenging scenario where it is unknown in a stochastic setting. Our approach builds on the fundamental learning-based framework of adaptive dynamic programming (ADP), combined with a Lyapunov-based analytical methodology to design the algorithms and derive sample-based approximations motivated from the Markov decision process (MDP)-based approaches. For the scenario involving non-measurable disturbances, we further establish stability and convergence guarantees for the learned control gains under sample-based approximations. The overall methodology emphasizes simplicity while providing rigorous guarantees. Finally, numerical experiments focus on the intricacies and validations for the design of offline continuous-time LQR with exogenous disturbances.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Deep Learning Prediction of Beam Coherence Time for Near-FieldTeraHertz Networks

Bridging Earth and Space: A Survey on HAPS for Non-Terrestrial Networks

A Deep State-Space Model Compression Method using Upper Bound on Output Error

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Contro...

Falsification-Driven Reinforcement Learning for Maritime Motion Planning

Навигация