Smooth Flow Matching

2508.13831v1 stat.ML, cs.LG 2025-08-21
Авторы:

Jianbin Tan, Anru R. Zhang

Резюме на русском

## Контекст В последние годы наблюдается рост использования функциональных данных, то есть сглаженных случайных функций, которые измеряются на непрерывном домене. Такие данные популярны в сферах, таких как биомедицинские исследования, информатика в области здравоохранения и эпидемиология. Однако статистическому анализу таких данных часто мешают несколько проблем, включая защиту личных данных, недостаточное количество и неправильное измерение данных, их бесконечномерность и негауссовскую структуру. Для решения этих задач предлагается новый подход, Smooth Flow Matching (SFM), который направлен на моделирование генерируемых данных. SFM позволяет генерировать векторы данных, которые не подчиняются нормальному распределению или строгому ограничению низкоранговой модели, и это делается с минимальными стоимостью и усилиями. ## Метод Smooth Flow Matching (SFM) основывается на идеях flow-matching и предлагает семипараметрическую копулю-поток для генерирования сглаженных функций. Метод не требует приближения по низкоранговой модели или гауссовского распределения, что делает его более гибким. Метод эффективен с точки зрения вычислительных затрат и может работать с данными, отсутствующими в некоторых точках. Кроме того, SFM обеспечивает гладкость полученных функций, что делает его приемлемым для сложных задач статистического анализа функциональных данных. ## Результаты Для оценки эффективности SFM проведены многочисленные эксперименты на синтетических данных и реальных базах, таких как MIMIC-IV. Эксперименты показали высокую точность генерируемых функций, а также высокую скорость вычислений метода. Генерируемые данные оказались полезными для таких задач, как построение прогнозов и анализ данных по электронным медицинским архивам пациентов. Наглядные результаты подтверждают практическую применимость SFM в сферах, где традиционные методы не применимы. ## Значимость SFM может быть применен в различных областях, включая биомедицинские исследования, экономику и информатику. Он предлагает выгоды, такие как эффективность вычислений, гибкость и поддержка негауссовских данных. Этот подход может способствовать улучшению статистического анализа в сферах, где существуют трудности с конфиденциальностью или недостатком данных. ## Выводы SFM является эффективным инструментом для моделирования функциональных данных. Он отличается высокой гибкостью и эффективностью, обрабатывая данные, которые трудно анализировать с помощью традиционных методов. Будущие исследования будут направлены на расширение функциональности SFM для более сложных случае

Abstract

Functional data, i.e., smooth random functions observed over a continuous domain, are increasingly available in areas such as biomedical research, health informatics, and epidemiology. However, effective statistical analysis for functional data is often hindered by challenges such as privacy constraints, sparse and irregular sampling, infinite dimensionality, and non-Gaussian structures. To address these challenges, we introduce a novel framework named Smooth Flow Matching (SFM), tailored for generative modeling of functional data to enable statistical analysis without exposing sensitive real data. Built upon flow-matching ideas, SFM constructs a semiparametric copula flow to generate infinite-dimensional functional data, free from Gaussianity or low-rank assumptions. It is computationally efficient, handles irregular observations, and guarantees the smoothness of the generated functions, offering a practical and flexible solution in scenarios where existing deep generative methods are not applicable. Through extensive simulation studies, we demonstrate the advantages of SFM in terms of both synthetic data quality and computational efficiency. We then apply SFM to generate clinical trajectory data from the MIMIC-IV patient electronic health records (EHR) longitudinal database. Our analysis showcases the ability of SFM to produce high-quality surrogate data for downstream statistical tasks, highlighting its potential to boost the utility of EHR data for clinical applications.

Ссылки и действия