Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization
2509.23711v1
cs.LG, cs.AI, math.OC, stat.ML
2025-10-01
Авторы:
Ziheng Cheng, Xin Guo, Yufei Zhang
Резюме на русском
## Контекст
Область исследования сосредоточена на изучении интеграции дискретных и непрерывных методов расширенного подкрепления (RL) для решения задач в условиях непрерывных временных рядов. Дискретные алгоритмы RL, хотя широко применяются в симуляторах и играх, часто не подходят для решения задач, в которых непрерывные значения времени и событий являются ключевыми компонентами. Например, в управлении движениями роботов, энергетических системах или финансовых рынках необходимо учитывать непрерывные изменения времени и состояний. Существующие подходы часто страдают от низкой стабильности, медленной сходимости и требований к высокой точности тайм-дискретизации, что приводит к ошибкам и нестабильности в решениях. Этот рабочий ход ставит целью устранить эти ограничения, сформировав более совершенные и универсальные методы для непрерывных RL-задач.
## Метод
Методология основывается на разработке алгоритма, который использует детерминистические политики в непрерывных временных рядах. Для этого изучается формула политического градиента на непрерывных временных рядах, основываясь на аналоге функции привышения (advantage). Для обеспечения стабильности и эффективности используется мартингальная характеристика, которая позволяет контролировать вариативность и надежность исследований. Архитектура CT-DDPG (Continuous-Time Deterministic Policy Gradient) объединяет элементы детерминированных политик и непрерывных оценок, чтобы достичь стабильного и эффективного обучения в непрерывных средах. Такая архитектура позволяет совместить точность детерминированных политик с гибкостью непрерывных оценок, обеспечивая устойчивость и эффективность в работе.
## Результаты
На основе теоретических выводов проводились эксперименты на различных симуляционных задачах, включая управление роботами, энергосистемами и финансовыми моделями. В этих экспериментах использовались различные уровни дискретизации времени и шумовых воздействий, чтобы проверить устойчивость и точность CT-DDPG в сравнении с дискретными и непрерывными алгоритмами. Результаты показали, что CT-DDPG обеспечивает более высокую стабильность и быстрее достигает оптимальных решений, в сравнении с традиционными подходами. Эти результаты подтверждают значительные преимущества CT-DDPG в условиях сложных непрерывных задач, где существуют высокие требования к стабильности и точности.
## Значимость
Результаты CT-DDPG открывают путь к применению RL в реальных непрерывных задачах, таких как энергетическое управление, интеллектуальное управление производством и управление роботами в реальном времени. Этот
Abstract
The theory of discrete-time reinforcement learning (RL) has advanced rapidly
over the past decades. Although primarily designed for discrete environments,
many real-world RL applications are inherently continuous and complex. A major
challenge in extending discrete-time algorithms to continuous-time settings is
their sensitivity to time discretization, often leading to poor stability and
slow convergence. In this paper, we investigate deterministic policy gradient
methods for continuous-time RL. We derive a continuous-time policy gradient
formula based on an analogue of the advantage function and establish its
martingale characterization. This theoretical foundation leads to our proposed
algorithm, CT-DDPG, which enables stable learning with deterministic policies
in continuous-time environments. Numerical experiments show that the proposed
CT-DDPG algorithm offers improved stability and faster convergence compared to
existing discrete-time and continuous-time methods, across a wide range of
control tasks with varying time discretizations and noise levels.