Continuous-Time Reinforcement Learning for Asset-Liability Management
2509.23280v1
cs.LG, cs.AI, math.OC, q-fin.MF
2025-10-01
Авторы:
Yilie Huang
Резюме на русском
## Контекст
Asset-Liability Management (ALM) — это ключевая операция в финансовой сфере, нацеленная на достижение баланса между доходностью активов и обязательствами (ликвидами), чтобы обеспечить финансовую устойчивость и сберегательные резервы. Традиционные подходы к ALM часто ограничены моделями, которые не учитывают реального времени, распределенных воздействий или взаимодействий между активами и ликвидами. Это приводит к ограниченной эффективности, особенно в условиях неопределенности и рыночных колебаний. Недостаток универсальных алгоритмов, которые могли бы эффективно решать эти задачи в реальном времени, породил мотивацию для разработки новых подходов.
## Метод
В данной работе предлагается использование **нейросетевого подхода**, основанного на **continuous-time Reinforcement Learning (RL)**, с применением **linear-quadratic (LQ) formulation**. Основным инструментом является **soft actor-critic (SAC)**, адаптированный для ALM. Данный подход отличается тем, что учитывает **скрытые состояния** и **динамическую адаптацию** в критических моментах. Алгоритм изначально включает **adaptive exploration** для актора и **scheduled exploration** для критика, что обеспечивает эффективный баланс между **exploration** и **exploitation**. Также в модели используется **метод политики дифференцирования**, позволяющий оптимизировать ALM без необходимости построения полного моделирования окружения.
## Результаты
Для оценки работы алгоритма проводились эксперименты в различных рыночных сценариях с разным уровнем вариабельности. По сравнению с двумя моделями, основанными на традиционных финансовых стратегиях, а также с **model-based continuous-time RL** и тремя современными RL-алгоритмами, предложенный подход показал выигрыш в **отношении среднего вознаграждения**. Это достигнуто не столько благодаря усовершенствованным моделям, сколько благодаря **быстрому выучиванию идеальной стратегии** в реальном времени, которая не требует подробного изучения внешнего рынка. Этот подход доминировал в **200 случайных рыночных сценариях**, стабильно показывая высокую эффективность.
## Значимость
Предложенный подход может быть применен в различных **финансовых системах**, включая **лизинговые схемы**, **финансовый менеджмент** и другие сферы, где необходимо сбалансировать доходы и обязательства. Он предлагает **преимущества** в за счет быстрого реагирования на рыночные изменения и уменьшенного количества необходимых параметров для обучения. Это может существенно повысить **финансовую устойчивость** и **реакцию** на неопределенность в рынке. Данный подход также может иметь **приложения** в системах **автоматизированного финансового управления**, улучшая показатели **взаимодействия** между реальными активами и
Abstract
This paper proposes a novel approach for Asset-Liability Management (ALM) by
employing continuous-time Reinforcement Learning (RL) with a linear-quadratic
(LQ) formulation that incorporates both interim and terminal objectives. We
develop a model-free, policy gradient-based soft actor-critic algorithm
tailored to ALM for dynamically synchronizing assets and liabilities. To ensure
an effective balance between exploration and exploitation with minimal tuning,
we introduce adaptive exploration for the actor and scheduled exploration for
the critic. Our empirical study evaluates this approach against two enhanced
traditional financial strategies, a model-based continuous-time RL method, and
three state-of-the-art RL algorithms. Evaluated across 200 randomized market
scenarios, our method achieves higher average rewards than all alternative
strategies, with rapid initial gains and sustained superior performance. The
outperformance stems not from complex neural networks or improved parameter
estimation, but from directly learning the optimal ALM strategy without
learning the environment.