Reinforcement Learning-based Control via Y-wise Affine Neural Networks (YANNs)
2508.16474v1
eess.SY, cs.LG, cs.SY, math.OC
2025-08-26
Авторы:
Austin Braniff, Yuhe Tian
Резюме на русском
#### Контекст
Область исследования сосредоточена на развитии методов управления, основанных на reinforcement learning (RL), которые могут эффективно решать задачи в условиях сложных, нелинейных систем. Существующие методы часто страдают от недостатка интерпретируемости и надежности, особенно при работе с нелинейными оптимизационными задачами. Мотивацией для разработки новых подходов является необходимость повысить точность, устойчивость и надёжность управляющих систем, особенно при применении в критичных областях, таких как химическая реактивность и авиационная техника.
#### Метод
Предлагается использовать Y-wise Affine Neural Networks (YANNs) как базовую модель для RL-алгоритмов. YANNs представляют собой интерпретируемые нейронные сети, которые могут точно репрезентативно представить политопические функции с произвольными размерами входа и выхода. Методом инициализации RL-сетей (actor и critic) используется решение многопараметрической линейной модельной прогностической контрольной программы (MPC). Это позволяет YANN-RL начинать работу с уверенностью, основанной на решении линейного контрольного процесса. Для учёта нелинейных систем добавляются дополнительные слои сети, которые обучаются в процессе интерактивного взаимодействия с неизвестной нелинейной системой. Это даёт возможность перейти от линейной модели к решению общих нелинейных задач управления.
#### Результаты
На исследовательских задачах, таких как подвеска маятника и система реактивного управления с критичными реакциями, YANN-RL продемонстрировала превосходство перед современными RL-методами, в частности, использующими deep deterministic policy gradient (DDPG). Особенно выдающимися результатами оказалось применение YANN-RL в ситуациях, требующих строгого соблюдения безопасностных ограничений. Набор экспериментов показал, что в сравнении с DDPG, YANN-RL обеспечивает улучшение надёжности и эффективности управления в системах с требовательными ограничениями.
#### Значимость
Разработанный подход может быть применён в различных областях, таких как авиация, роботизация, кибер-физические системы и управление промышленными процессами. Основные преимущества включают высокую точность, интерпретируемость решений и устойчивость к ошибкам. Дальнейшие исследования могут быть направлены на улучшение скорости интерпретации и оптимизации алгоритмов для задач с более высоким размером политопических подмножеств.
#### Выводы
YANN-RL представляет собой перспективный подход к управлению нелинейными системами, который объединяет преимущества RL и YANNs. Результаты эмпирических экспериментов подтверждают превосходство YANN-RL в сложных задачах упра
Abstract
This work presents a novel reinforcement learning (RL) algorithm based on
Y-wise Affine Neural Networks (YANNs). YANNs provide an interpretable neural
network which can exactly represent known piecewise affine functions of
arbitrary input and output dimensions defined on any amount of polytopic
subdomains. One representative application of YANNs is to reformulate explicit
solutions of multi-parametric linear model predictive control. Built on this,
we propose the use of YANNs to initialize RL actor and critic networks, which
enables the resulting YANN-RL control algorithm to start with the confidence of
linear optimal control. The YANN-actor is initialized by representing the
multi-parametric control solutions obtained via offline computation using an
approximated linear system model. The YANN-critic represents the explicit form
of the state-action value function for the linear system and the reward
function as the objective in an optimal control problem (OCP). Additional
network layers are injected to extend YANNs for nonlinear expressions, which
can be trained online by directly interacting with the true complex nonlinear
system. In this way, both the policy and state-value functions exactly
represent a linear OCP initially and are able to eventually learn the solution
of a general nonlinear OCP. Continuous policy improvement is also implemented
to provide heuristic confidence that the linear OCP solution serves as an
effective lower bound to the performance of RL policy. The YANN-RL algorithm is
demonstrated on a clipped pendulum and a safety-critical chemical-reactive
system. Our results show that YANN-RL significantly outperforms the modern RL
algorithm using deep deterministic policy gradient, especially when considering
safety constraints.