Off Policy Lyapunov Stability in Reinforcement Learning
2509.09863v1
eess.SY, cs.LG, cs.RO, cs.SY
2025-09-16
Авторы:
Sarvan Gill, Daniela Constantinescu
Резюме на русском
## Контекст
Решение задач контроля в средах с неубывающим временем работы часто требует обеспечения стабильности системы. Однако, традиционные алгоритмы реинфорсментного обучения (RL) не обеспечивают стабильности по своей природе. Недавние разработки, использующие самообучаемые Lyapunov-функции, призваны решить эту проблему. Однако, эти Lyapunov-функции обучаются с использованием on-policy методов, что приводит к высокой экспериментальной неэффективности.
Предложенный подход нацелен на решение этих проблем, предлагая метод для обучения Lyapunov-функций с использованием off-policy методов. Этот подход может быть интегрирован с уже существующими методами обучения RL, чтобы обеспечить лучшую эффективность и стабильность обучения. Это важно для применения в системах, требующих высокой точности и надежности, например, в авиации и робототехнике.
## Метод
Предлагаемый подход включает несколько ключевых технических решений. Во-первых, разработана методология для обучения Lyapunov-функций с использованием off-policy методов, что позволяет эффективно использовать данные с большим объемом в реальном времени. Во-вторых, внедрена архитектура, которая позволяет интегрировать эту Lyapunov-функцию в алгоритмы Soft Actor Critic (SAC) и Proximal Policy Optimization (PPO). Это позволяет эти алгоритмы использовать для получения более точных и стабильных решений в задачах контроля.
Эта архитектура включает несколько модулей, таких как нейронные сети для вычисления Lyapunov-функций и методы восстановления данных для эффективного использования off-policy методов. Это позволяет избежать некоторых проблем, связанных с on-policy методами, таких как ограниченность объема данных и высокая стоимость экспериментов.
## Результаты
В ходе экспериментов, проведенных на моделях инвертированного пендюла и квадротора, были получены следующие результаты. Алгоритмы SAC и PPO, внедренные с Lyapunov-функцией, показали значительное улучшение в стабильности и эффективности сравнительно с оригинальными алгоритмами. Были проведены сравнения с традиционными методами, показав значительное преимущество в эффективности обучения и стабильности решения.
Представленные результаты показывают, что основным преимуществом является улучшение эффективности обучения благодаря использованию off-policy методов. Это позволяет использовать большие объемы данных для эффективного обучения Lyapunov-функций, что делает эти алгоритмы более пригодными для применения в реальных системах, где необходима высокая стабильность и точность.
## Значимость
Результаты работы имеют большое значение для развития методологий RL, особенно
Abstract
Traditional reinforcement learning lacks the ability to provide stability
guarantees. More recent algorithms learn Lyapunov functions alongside the
control policies to ensure stable learning. However, the current self-learned
Lyapunov functions are sample inefficient due to their on-policy nature. This
paper introduces a method for learning Lyapunov functions off-policy and
incorporates the proposed off-policy Lyapunov function into the Soft Actor
Critic and Proximal Policy Optimization algorithms to provide them with a data
efficient stability certificate. Simulations of an inverted pendulum and a
quadrotor illustrate the improved performance of the two algorithms when
endowed with the proposed off-policy Lyapunov function.