Off Policy Lyapunov Stability in Reinforcement Learning

2509.09863v1 eess.SY, cs.LG, cs.RO, cs.SY 2025-09-16

Авторы:

Sarvan Gill, Daniela Constantinescu

Резюме на русском

## Контекст Решение задач контроля в средах с неубывающим временем работы часто требует обеспечения стабильности системы. Однако, традиционные алгоритмы реинфорсментного обучения (RL) не обеспечивают стабильности по своей природе. Недавние разработки, использующие самообучаемые Lyapunov-функции, призваны решить эту проблему. Однако, эти Lyapunov-функции обучаются с использованием on-policy методов, что приводит к высокой экспериментальной неэффективности. Предложенный подход нацелен на решение этих проблем, предлагая метод для обучения Lyapunov-функций с использованием off-policy методов. Этот подход может быть интегрирован с уже существующими методами обучения RL, чтобы обеспечить лучшую эффективность и стабильность обучения. Это важно для применения в системах, требующих высокой точности и надежности, например, в авиации и робототехнике. ## Метод Предлагаемый подход включает несколько ключевых технических решений. Во-первых, разработана методология для обучения Lyapunov-функций с использованием off-policy методов, что позволяет эффективно использовать данные с большим объемом в реальном времени. Во-вторых, внедрена архитектура, которая позволяет интегрировать эту Lyapunov-функцию в алгоритмы Soft Actor Critic (SAC) и Proximal Policy Optimization (PPO). Это позволяет эти алгоритмы использовать для получения более точных и стабильных решений в задачах контроля. Эта архитектура включает несколько модулей, таких как нейронные сети для вычисления Lyapunov-функций и методы восстановления данных для эффективного использования off-policy методов. Это позволяет избежать некоторых проблем, связанных с on-policy методами, таких как ограниченность объема данных и высокая стоимость экспериментов. ## Результаты В ходе экспериментов, проведенных на моделях инвертированного пендюла и квадротора, были получены следующие результаты. Алгоритмы SAC и PPO, внедренные с Lyapunov-функцией, показали значительное улучшение в стабильности и эффективности сравнительно с оригинальными алгоритмами. Были проведены сравнения с традиционными методами, показав значительное преимущество в эффективности обучения и стабильности решения. Представленные результаты показывают, что основным преимуществом является улучшение эффективности обучения благодаря использованию off-policy методов. Это позволяет использовать большие объемы данных для эффективного обучения Lyapunov-функций, что делает эти алгоритмы более пригодными для применения в реальных системах, где необходима высокая стабильность и точность. ## Значимость Результаты работы имеют большое значение для развития методологий RL, особенно

Abstract

Traditional reinforcement learning lacks the ability to provide stability guarantees. More recent algorithms learn Lyapunov functions alongside the control policies to ensure stable learning. However, the current self-learned Lyapunov functions are sample inefficient due to their on-policy nature. This paper introduces a method for learning Lyapunov functions off-policy and incorporates the proposed off-policy Lyapunov function into the Soft Actor Critic and Proximal Policy Optimization algorithms to provide them with a data efficient stability certificate. Simulations of an inverted pendulum and a quadrotor illustrate the improved performance of the two algorithms when endowed with the proposed off-policy Lyapunov function.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Off Policy Lyapunov Stability in Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Many-vs-Many Missile Guidance via Virtual Targets

A Fast Initialization Method for Neural Network Controllers: A Case Study of Ima...

Навигация