Multi-Marginal Stochastic Flow Matching for High-Dimensional Snapshot Data at Irregular Time Points
2508.04351v1
cs.LG, cs.NE, I.2, I.2.6
2025-08-09
Авторы:
Justin Lee, Behnaz Moradijamei, Heman Shakeri
Резюме на русском
Избыточная сложность и ограниченность данных, собранных в редкие моменты времени, часто помешают моделировать процессы в высокомеричных системах, особенно в области биологии и других наук. Традиционные модели, ориентированные на сокращение размерности данных, часто не удается локализовать значимые транзиентные поведения в неустойчивых системах. Мы предлагаем Multi-Marginal Stochastic Flow Matching (MMSFM), расширенную модель, основанную на ключевых понятиях симуляционно-бесплатных методов построения пространства вектора ошибки и стохастических потоков. Эта модель позволяет сопоставить данные, собранные в неравномерные моменты времени, без уменьшения размерности, используя продвинутые меропольные кривые. Мы проверили нашу модель на многих синтетических и реальных данных, включая выравнивание генных выражений и задачу распознавания изображений, показав высокую точность и гибкость в работе с неравномерными данными.
Abstract
Modeling the evolution of high-dimensional systems from limited snapshot
observations at irregular time points poses a significant challenge in
quantitative biology and related fields. Traditional approaches often rely on
dimensionality reduction techniques, which can oversimplify the dynamics and
fail to capture critical transient behaviors in non-equilibrium systems. We
present Multi-Marginal Stochastic Flow Matching (MMSFM), a novel extension of
simulation-free score and flow matching methods to the multi-marginal setting,
enabling the alignment of high-dimensional data measured at non-equidistant
time points without reducing dimensionality. The use of measure-valued splines
enhances robustness to irregular snapshot timing, and score matching prevents
overfitting in high-dimensional spaces. We validate our framework on several
synthetic and benchmark datasets, including gene expression data collected at
uneven time points and an image progression task, demonstrating the method's
versatility.