MMM: Clustering Multivariate Longitudinal Mixed-type Data
2509.12166v1
stat.ML, cs.LG, stat.ME
2025-09-17
Авторы:
Francesco Amato, Julien Jacques
Резюме на русском
## Контекст
В последние годы во многих научных областях, таких как медицина, экономика и социальные науки, становится все более распространенным сбор данных многомерного характера, содержащих различные типы переменных (например, количественные, категориальные и бинарные). Однако существуют ограничения в существующих методах кластеризации, так как они либо не учитывают локальную структуру данных, либо не учитывают связь между временными рядами. Это приводит к неточности в кластеризации и несоответствию реальным эмпирическим данным. Из-за этого необходимо разработать более точный и универсальный подход к кластеризации, который моделирует взаимосвязи между всевозможными типами переменных.
## Метод
Модель Mixture of Mixed-Matrices (MMM) предлагает новый подход к кластеризации многомерных данных смешанного типа. Данные организуются в трехмерную структуру, где каждая переменная представляется в виде своего матричного представления. Для моделирования неконтинюальных переменных предполагается, что они являются наблюдениями за подчиненными непрерывными переменными. Модель основывается на смеси матричных-переменных нормальных распределений, чтобы выполнять кластеризацию в подпространстве латентных переменных. Эта модель может эффективно обрабатывать континюальные, ординальные, бинарные, номинальные и счетные данные, учитывая взаимосвязи, локальные зависимости и временную зависимость в пакетном режиме, не прибегая к условию условной независимости. Инференция в модели производится с помощью алгоритма MCMC-EM.
## Результаты
Эксперименты с помощью синтетических данных показали, что модель MMM эффективно моделирует локальные и временные зависимости в многомерных данных смешанного типа. Она также успешно выполняет кластеризацию, даже в ситуациях с высокой степенью неоднородности в данных. На реальных финансовых данных показано, что модель хорошо приспособлена для обнаружения групп и оценки их структуры. Эти результаты подтверждают мощь MMM в обработке разнообразных типов данных и могут быть применены в различных научных и практических областях.
## Значимость
МММ может быть применена во многих областях, таких как финансы, здравоохранение, экономика и социальные науки, где требуется анализ сложных многомерных данных. Особые преимущества заключаются в том, что модель может обрабатывать различные типы данных, учитывая их взаимосвязи и временные зависимости. Это означает, что MMM может предоставить более глубокие и точные результаты кластеризации, чем существующие методы. Будущими направлениями исследований будет повышение точности модели и её применение в более сложных реальных за
Abstract
Multivariate longitudinal data of mixed-type are increasingly collected in
many science domains. However, algorithms to cluster this kind of data remain
scarce, due to the challenge to simultaneously model the within- and
between-time dependence structures for multivariate data of mixed kind. We
introduce the Mixture of Mixed-Matrices (MMM) model: reorganizing the data in a
three-way structure and assuming that the non-continuous variables are
observations of underlying latent continuous variables, the model relies on a
mixture of matrix-variate normal distributions to perform clustering in the
latent dimension. The MMM model is thus able to handle continuous, ordinal,
binary, nominal and count data and to concurrently model the heterogeneity, the
association among the responses and the temporal dependence structure in a
parsimonious way and without assuming conditional independence. The inference
is carried out through an MCMC-EM algorithm, which is detailed. An evaluation
of the model through synthetic data shows its inference abilities. A real-world
application on financial data is presented.