Error Propagation in Dynamic Programming: From Stochastic Control to Option Pricing

2509.20239v1 stat.ML, cs.LG, q-fin.CP, q-fin.PR, stat.AP 2025-09-26
Авторы:

Andrea Della Vecchia, Damir Filipović

Резюме на русском

## Контекст Область динамического программирования (DP) имеет широкие приложения, включая экономические модели, финансовое моделирование и алгоритмическое торговле. Одна из ключевых задач этой области — решение задач стохастического оптимального управления (SOC). Несмотря на свою важность, эта тема еще не получила достаточного внимания в литературе. Одна из проблем заключается в том, что анализ процесса передачи ошибок (error propagation) в SOC зачастую ограничивается одномерным или неформальным подходом. Этот аспект требует глубокого исследования, так как понимание процесса передачи ошибок может повысить точность и эффективность решений в SOC. Мотивация для настоящей работы — разработка математической структуры для анализа процесса передачи ошибок в SOC, основанном на подходах к нейрокомпьютерным моделям и интерпретации данных. ## Метод Мы приступили к формулировке задачи SOC в полной динамической программной рамтеке, чтобы обеспечить подробный анализ конвергенции. Значение функции ценности (value function) вычисляется с помощью последовательности приближений, комбинирующих методы репродуцируемых гильбертовых пространств (RKHS) и методы Монте-Карло для оценки продолжения значения. Регрессионный этап выполняется в RKHS с использованием алгоритма Классической Регрессии Кернельной Регрессии (KRR). Методы Монте-Карло применяются для оценки продолжения значения. Для оценки точности нашего значения функции мы проводим натуральное разложение ошибки и строго контролируем результирующие ошибки на каждом шаге времени. Мы также анализируем, как эта ошибка протекает назад во времени — от стадии матурности к исходной стадии. Разработанная методология тестируется на примере ключевого финансового приложения — опционной стоимости Американского типа. ## Результаты Мы проводим эксперименты на широком классе финансовых моделей, включая случайные процессы Лейбница и логистические модели. Использованные данные включают экономические масштабы, финансовые индексы и цены на активы. Результаты показывают, что наш подход обеспечивает высокую точность в оценке функции ценности и эффективно управляет процессом передачи ошибок. Это позволяет повысить точность решений в SOC и снизить временные затраты. Мы также проводим сравнительный анализ с имеющимися методами, показывая преимущества нашего подхода в том числе в ситуациях с ограниченным объемом данных. ## Значимость Разработанный подход может быть применен в различных областях, включая финансовое моделирование, экономические прогнозы и управление рисками. Наши результаты показывают, что наш подход не только улучша

Abstract

This paper investigates theoretical and methodological foundations for stochastic optimal control (SOC) in discrete time. We start formulating the control problem in a general dynamic programming framework, introducing the mathematical structure needed for a detailed convergence analysis. The associate value function is estimated through a sequence of approximations combining nonparametric regression methods and Monte Carlo subsampling. The regression step is performed within reproducing kernel Hilbert spaces (RKHSs), exploiting the classical KRR algorithm, while Monte Carlo sampling methods are introduced to estimate the continuation value. To assess the accuracy of our value function estimator, we propose a natural error decomposition and rigorously control the resulting error terms at each time step. We then analyze how this error propagates backward in time-from maturity to the initial stage-a relatively underexplored aspect of the SOC literature. Finally, we illustrate how our analysis naturally applies to a key financial application: the pricing of American options.

Ссылки и действия