Multi-Marginal Stochastic Flow Matching for High-Dimensional Snapshot Data at Irregular Time Points

2508.04351v1 cs.LG, cs.NE, I.2, I.2.6 2025-08-09
Авторы:

Justin Lee, Behnaz Moradijamei, Heman Shakeri

Резюме на русском

Избыточная сложность и ограниченность данных, собранных в редкие моменты времени, часто помешают моделировать процессы в высокомеричных системах, особенно в области биологии и других наук. Традиционные модели, ориентированные на сокращение размерности данных, часто не удается локализовать значимые транзиентные поведения в неустойчивых системах. Мы предлагаем Multi-Marginal Stochastic Flow Matching (MMSFM), расширенную модель, основанную на ключевых понятиях симуляционно-бесплатных методов построения пространства вектора ошибки и стохастических потоков. Эта модель позволяет сопоставить данные, собранные в неравномерные моменты времени, без уменьшения размерности, используя продвинутые меропольные кривые. Мы проверили нашу модель на многих синтетических и реальных данных, включая выравнивание генных выражений и задачу распознавания изображений, показав высокую точность и гибкость в работе с неравномерными данными.

Abstract

Modeling the evolution of high-dimensional systems from limited snapshot observations at irregular time points poses a significant challenge in quantitative biology and related fields. Traditional approaches often rely on dimensionality reduction techniques, which can oversimplify the dynamics and fail to capture critical transient behaviors in non-equilibrium systems. We present Multi-Marginal Stochastic Flow Matching (MMSFM), a novel extension of simulation-free score and flow matching methods to the multi-marginal setting, enabling the alignment of high-dimensional data measured at non-equidistant time points without reducing dimensionality. The use of measure-valued splines enhances robustness to irregular snapshot timing, and score matching prevents overfitting in high-dimensional spaces. We validate our framework on several synthetic and benchmark datasets, including gene expression data collected at uneven time points and an image progression task, demonstrating the method's versatility.

Ссылки и действия