Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization

2509.23711v1 cs.LG, cs.AI, math.OC, stat.ML 2025-10-01

Авторы:

Ziheng Cheng, Xin Guo, Yufei Zhang

Резюме на русском

## Контекст Область исследования сосредоточена на изучении интеграции дискретных и непрерывных методов расширенного подкрепления (RL) для решения задач в условиях непрерывных временных рядов. Дискретные алгоритмы RL, хотя широко применяются в симуляторах и играх, часто не подходят для решения задач, в которых непрерывные значения времени и событий являются ключевыми компонентами. Например, в управлении движениями роботов, энергетических системах или финансовых рынках необходимо учитывать непрерывные изменения времени и состояний. Существующие подходы часто страдают от низкой стабильности, медленной сходимости и требований к высокой точности тайм-дискретизации, что приводит к ошибкам и нестабильности в решениях. Этот рабочий ход ставит целью устранить эти ограничения, сформировав более совершенные и универсальные методы для непрерывных RL-задач. ## Метод Методология основывается на разработке алгоритма, который использует детерминистические политики в непрерывных временных рядах. Для этого изучается формула политического градиента на непрерывных временных рядах, основываясь на аналоге функции привышения (advantage). Для обеспечения стабильности и эффективности используется мартингальная характеристика, которая позволяет контролировать вариативность и надежность исследований. Архитектура CT-DDPG (Continuous-Time Deterministic Policy Gradient) объединяет элементы детерминированных политик и непрерывных оценок, чтобы достичь стабильного и эффективного обучения в непрерывных средах. Такая архитектура позволяет совместить точность детерминированных политик с гибкостью непрерывных оценок, обеспечивая устойчивость и эффективность в работе. ## Результаты На основе теоретических выводов проводились эксперименты на различных симуляционных задачах, включая управление роботами, энергосистемами и финансовыми моделями. В этих экспериментах использовались различные уровни дискретизации времени и шумовых воздействий, чтобы проверить устойчивость и точность CT-DDPG в сравнении с дискретными и непрерывными алгоритмами. Результаты показали, что CT-DDPG обеспечивает более высокую стабильность и быстрее достигает оптимальных решений, в сравнении с традиционными подходами. Эти результаты подтверждают значительные преимущества CT-DDPG в условиях сложных непрерывных задач, где существуют высокие требования к стабильности и точности. ## Значимость Результаты CT-DDPG открывают путь к применению RL в реальных непрерывных задачах, таких как энергетическое управление, интеллектуальное управление производством и управление роботами в реальном времени. Этот

Abstract

The theory of discrete-time reinforcement learning (RL) has advanced rapidly over the past decades. Although primarily designed for discrete environments, many real-world RL applications are inherently continuous and complex. A major challenge in extending discrete-time algorithms to continuous-time settings is their sensitivity to time discretization, often leading to poor stability and slow convergence. In this paper, we investigate deterministic policy gradient methods for continuous-time RL. We derive a continuous-time policy gradient formula based on an analogue of the advantage function and establish its martingale characterization. This theoretical foundation leads to our proposed algorithm, CT-DDPG, which enables stable learning with deterministic policies in continuous-time environments. Numerical experiments show that the proposed CT-DDPG algorithm offers improved stability and faster convergence compared to existing discrete-time and continuous-time methods, across a wide range of control tasks with varying time discretizations and noise levels.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ECPv2: Fast, Efficient, and Scalable Global Optimization of Lipschitz Functions

Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalizatio...

Power Constrained Nonstationary Bandits with Habituation and Recovery Dynamics

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batc...

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batc...

Навигация