Reinforcement Learning-based Control via Y-wise Affine Neural Networks (YANNs)

2508.16474v1 eess.SY, cs.LG, cs.SY, math.OC 2025-08-26
Авторы:

Austin Braniff, Yuhe Tian

Резюме на русском

#### Контекст Область исследования сосредоточена на развитии методов управления, основанных на reinforcement learning (RL), которые могут эффективно решать задачи в условиях сложных, нелинейных систем. Существующие методы часто страдают от недостатка интерпретируемости и надежности, особенно при работе с нелинейными оптимизационными задачами. Мотивацией для разработки новых подходов является необходимость повысить точность, устойчивость и надёжность управляющих систем, особенно при применении в критичных областях, таких как химическая реактивность и авиационная техника. #### Метод Предлагается использовать Y-wise Affine Neural Networks (YANNs) как базовую модель для RL-алгоритмов. YANNs представляют собой интерпретируемые нейронные сети, которые могут точно репрезентативно представить политопические функции с произвольными размерами входа и выхода. Методом инициализации RL-сетей (actor и critic) используется решение многопараметрической линейной модельной прогностической контрольной программы (MPC). Это позволяет YANN-RL начинать работу с уверенностью, основанной на решении линейного контрольного процесса. Для учёта нелинейных систем добавляются дополнительные слои сети, которые обучаются в процессе интерактивного взаимодействия с неизвестной нелинейной системой. Это даёт возможность перейти от линейной модели к решению общих нелинейных задач управления. #### Результаты На исследовательских задачах, таких как подвеска маятника и система реактивного управления с критичными реакциями, YANN-RL продемонстрировала превосходство перед современными RL-методами, в частности, использующими deep deterministic policy gradient (DDPG). Особенно выдающимися результатами оказалось применение YANN-RL в ситуациях, требующих строгого соблюдения безопасностных ограничений. Набор экспериментов показал, что в сравнении с DDPG, YANN-RL обеспечивает улучшение надёжности и эффективности управления в системах с требовательными ограничениями. #### Значимость Разработанный подход может быть применён в различных областях, таких как авиация, роботизация, кибер-физические системы и управление промышленными процессами. Основные преимущества включают высокую точность, интерпретируемость решений и устойчивость к ошибкам. Дальнейшие исследования могут быть направлены на улучшение скорости интерпретации и оптимизации алгоритмов для задач с более высоким размером политопических подмножеств. #### Выводы YANN-RL представляет собой перспективный подход к управлению нелинейными системами, который объединяет преимущества RL и YANNs. Результаты эмпирических экспериментов подтверждают превосходство YANN-RL в сложных задачах упра

Abstract

This work presents a novel reinforcement learning (RL) algorithm based on Y-wise Affine Neural Networks (YANNs). YANNs provide an interpretable neural network which can exactly represent known piecewise affine functions of arbitrary input and output dimensions defined on any amount of polytopic subdomains. One representative application of YANNs is to reformulate explicit solutions of multi-parametric linear model predictive control. Built on this, we propose the use of YANNs to initialize RL actor and critic networks, which enables the resulting YANN-RL control algorithm to start with the confidence of linear optimal control. The YANN-actor is initialized by representing the multi-parametric control solutions obtained via offline computation using an approximated linear system model. The YANN-critic represents the explicit form of the state-action value function for the linear system and the reward function as the objective in an optimal control problem (OCP). Additional network layers are injected to extend YANNs for nonlinear expressions, which can be trained online by directly interacting with the true complex nonlinear system. In this way, both the policy and state-value functions exactly represent a linear OCP initially and are able to eventually learn the solution of a general nonlinear OCP. Continuous policy improvement is also implemented to provide heuristic confidence that the linear OCP solution serves as an effective lower bound to the performance of RL policy. The YANN-RL algorithm is demonstrated on a clipped pendulum and a safety-critical chemical-reactive system. Our results show that YANN-RL significantly outperforms the modern RL algorithm using deep deterministic policy gradient, especially when considering safety constraints.

Ссылки и действия

Связанные статьи

Modeling and Control of Deep Sign-Definite Dynamics with Application to Hybrid P...

## Контекст Область исследования, связанная с моделированием и управлением нелинейных систем, чрезвычайно важна в многих...

2025-09-26

Towards safe control parameter tuning in distributed multi-agent systems

## Контекст Оптимизация параметров в распределенных системах с несколькими агентами (distributed multi-agent systems, DM...

2025-08-21