Computationally efficient Gauss-Newton reinforcement learning for model predictive control

2508.02441v1 eess.SY, cs.LG, cs.SY 2025-08-09
Авторы:

Dean Brandner, Sebastien Gros, Sergio Lucia

Резюме на русском

## Контекст Model predictive control (MPC) широко применяется в промышленном управлении, благодаря своей понятности и возможности учесть ограничения. Однако MPC, как параметрическая политика в области reinforcement learning (RL), часто страдает от неэффективности в обучении, поскольку поддерживает сильную начальную производительность и требует малого объема данных по сравнению с блэк-бокс-политиками, такими как нейронные сети. Обучение MPC становится сложнее из-за необходимости решения многократных задач оптимального управления, что приводит к высоким затратам на вычисления. Известные методы RL, основанные на первом порядке, неэффективны в этой области, так как весьма трудоемко решать задачи, требующие точного понимания динамики системы. Наша мотивация заключается в развитии более эффективного алгоритма, который бы существенно сократил время обучения MPC, при этом сохраняя высокую точность. ## Метод Мы предлагаем новый подход, основанный на Gauss-Newton и позволяющий уменьшить вычислительные затраты при подгонке MPC-политики. Наш метод отказывается от требования к вычислениям второго порядка, которые традиционно требуются для наилучшего контроля. Вместо этого мы используем приближение для определителя Hessiana, что существенно уменьшает вычислительный вес. Для того, чтобы обеспечить стабильность алгоритма при работе с шумными данными, мы разработали схему скользящего среднего для гессиана. Это позволяет обеспечить гладкую и точную обучение MPC-политик, даже в условиях большого шума в данных. В целом, наш подход значительно улучшает скорость и эффективность в процессе обучения MPC-политик. ## Результаты Мы проверили наш алгоритм на нелинейной модели нетермодинамического реактора. Наши результаты показали, что Gauss-Newton RL для MPC позволяет достичь быстрее требуемого качества управления по сравнению с первоначальными методами. Также, наши результаты показали, что наш метод значительно эффективнее, что дает возможность сократить время обучения и объем необходимого объема данных. Мы показали, что процесс обучения становится более устойчивым и точным в ситуациях, когда размерность пространства параметров высока. Это улучшение в производительности позволяет использовать MPC-политики в более сложных задачах управления. ## Значимость Наш подход может быть применим в различных промышленных системах, где используется MPC, таких как процессы химической промышленности, энергетические системы и другие системы с высокими требованиями к точности и скорости. Помимо этого, новый метод может быть задействован в RL для решения задач с высоким числом параметров, которые требуют низкого объема вычислительных ресурсов. Мы считаем, что наш под

Abstract

Model predictive control (MPC) is widely used in process control due to its interpretability and ability to handle constraints. As a parametric policy in reinforcement learning (RL), MPC offers strong initial performance and low data requirements compared to black-box policies like neural networks. However, most RL methods rely on first-order updates, which scale well to large parameter spaces but converge at most linearly, making them inefficient when each policy update requires solving an optimal control problem, as is the case with MPC. While MPC policies are typically sparsely parameterized and thus amenable to second-order approaches, existing second-order methods demand second-order policy derivatives, which can be computationally and memory-wise intractable. This work introduces a Gauss-Newton approximation of the deterministic policy Hessian that eliminates the need for second-order policy derivatives, enabling superlinear convergence with minimal computational overhead. To further improve robustness, we propose a momentum-based Hessian averaging scheme for stable training under noisy estimates. We demonstrate the effectiveness of the approach on a nonlinear continuously stirred tank reactor (CSTR), showing faster convergence and improved data efficiency over state-of-the-art first-order methods.

Ссылки и действия