Nonparametric learning of stochastic differential equations from sparse and noisy data

2508.11597v1 stat.ML, cs.LG, math.PR, stat.ME, 62G05, 62M05, 60H10, 60J60, 46E22, 65C05, 65C35 2025-08-19
Авторы:

Arnab Ganguly, Riten Mitra, Jinpu Zhou

Резюме на русском

## Контекст Задача построения моделей стохастических дифференциальных уравнений (СДУ) на основе данных является ключевым вопросом в математике, физике, биологии и других науках. Обычно, модели СДУ строятся в параметрическом виде, принимая за справедливыми значимые априорные гипотезы о динамике системы. Однако во многих ситуациях динамика системы не явно известна, или же характеристики модели трудно описать с помощью фиксированной структуры. Эти недостатки приводят к неточностям в моделировании и предсказаниях. Наша мотивация заключается в создании непараметрического подхода, который может извлечь динамику системы из данных, не прибегая к предварительным априорным предположениях. ## Метод Мы предлагаем непараметрический подход для изучения СДУ на основе минимизации функционала отрицательго логарифма правдоподобия в репродуцируемом гильбертовом пространстве (RKHS). Этот подход позволяет учитывать ситуации, когда некоторые части динамического процесса остаются необнаруженными. Решение этой задачи осуществляется с помощью статистического алгоритма Expectation-Maximization (EM). Для вычисления E-шага мы используем Sequential Monte Carlo (SMC), чтобы приблизить распределение фильтрации. М-шаг сокращается до задачи минимизации априорной функции в RKHS. Дополнительно, мы разработали модификацию алгоритма с гибридным Байесовским подходом, используя нейтральные предварительные гипотезы для регулирования модели. ## Результаты Мы проводили серию экспериментов, используя имитационные данные с различных типов СДУ, в том числе систем с высокой комплексностью и низким уровнем наблюдаемых данных. Наши результаты показали, что предложенный подход демонстрирует высокую точность в оценке динамических систем по частичной и шумной информации. Особенно хорошие результаты были получены при использовании гибридной Байесовской модификации, которая позволила снизить количество вычислительных вызовов и повысить точность оценок. ## Значимость Наш подход широко применим в таких областях, как моделирование климата, динамика биологических систем, финансовый анализ и другие науки, где необходимо единый расчет динамических процессов на основе неполных наблюдений. Также, наш метод предлагает значительные преимущества по сравнению с существующими параметрическими подходами, которые часто требуют значительных предварительных априорных усилий. ## Выводы Мы установили важные теоретические результаты в области непараметрического учета необходимой информации в ненаблюдаемых данных. Будущие исследования будут адресованы усовершенст

Abstract

The paper proposes a systematic framework for building data-driven stochastic differential equation (SDE) models from sparse, noisy observations. Unlike traditional parametric approaches, which assume a known functional form for the drift, our goal here is to learn the entire drift function directly from data without strong structural assumptions, making it especially relevant in scientific disciplines where system dynamics are partially understood or highly complex. We cast the estimation problem as minimization of the penalized negative log-likelihood functional over a reproducing kernel Hilbert space (RKHS). In the sparse observation regime, the presence of unobserved trajectory segments makes the SDE likelihood intractable. To address this, we develop an Expectation-Maximization (EM) algorithm that employs a novel Sequential Monte Carlo (SMC) method to approximate the filtering distribution and generate Monte Carlo estimates of the E-step objective. The M-step then reduces to a penalized empirical risk minimization problem in the RKHS, whose minimizer is given by a finite linear combination of kernel functions via a generalized representer theorem. To control model complexity across EM iterations, we also develop a hybrid Bayesian variant of the algorithm that uses shrinkage priors to identify significant coefficients in the kernel expansion. We establish important theoretical convergence results for both the exact and approximate EM sequences. The resulting EM-SMC-RKHS procedure enables accurate estimation of the drift function of stochastic dynamical systems in low-data regimes and is broadly applicable across domains requiring continuous-time modeling under observational constraints. We demonstrate the effectiveness of our method through a series of numerical experiments.

Ссылки и действия