Probabilistic Geometric Principal Component Analysis with application to neural data
2509.18469v1
cs.LG, q-bio.NC, stat.ML
2025-09-25
Авторы:
Han-Lin Hsieh, Maryam M. Shanechi
Резюме на русском
## Контекст
Уменьшение размерности является критическим аспектом различных научных областей, в том числе нейронаук. Одним из значимых подходов является **Пробабилистический Геометрический Анализ Главных Компонент (PGPCA)**. Это метод, который расширяет **Пробабилистический Анализ Главных Компонент (PPCA)**, учитывая геометрию нелинейных многообразий, на которых распределены данные.
Обычное **PPCA** основывается на линейных моделях и ограничено работой в евклидовом пространстве. Однако многие данные, особенно в нейронауке, имеют нетривиальную геометрию, лежащую на нетривиальных многообразиях. Это приводит к несоответствию между данными и моделью. **PGPCA** решает эту проблему, используя геометрические представления многообразий для описания и уменьшения размерности данных, находящихся на них.
## Метод
**PGPCA** создан на основе **PPCA**, но включает в себя геометрическую модель многообразия. Данный метод позволяет построить не только линейную модель размерности, но также выделять геометрические параметры многообразия, на которых распределены данные.
Главная идея заключается в том, что вместо того, чтобы рассматривать точки в евклидовом пространстве, **PGPCA** предлагает моделировать данные в геометрической системе координат многообразия. Это позволяет учитывать нетривиальные девиации от линейных моделей и шумы, связанные с нелинейной геометрией многообразия.
В ходе работы метода происходит построение модели, основанной на эмпирических данных, и оценка параметров многообразия и шума. Этот подход позволяет не только уменьшить размерность, но и понять, насколько геометрическое представление данных более точно описывает данные, чем линейная модель.
## Результаты
**PGPCA** протестирован на симуляционных данных и данных, полученных из мозга. Он показал значительные улучшения по сравнению с **PPCA** в ситуациях, когда данные распределены нелинейным образом.
Одним из ключевых результатов является возможность сравнения разных моделей геометрии. **PGPCA** может определить, является ли геометрия многообразия более точной моделью для данных, чем евклидовый пространственный подход.
Помимо этого, **PGPCA** позволяет проводить размерностный анализ данных, которые распределены как на многообразии, так и в его окрестностях, что делает этот подход применимым для широкого круга задач в нейронауке.
## Значимость
**PGPCA** может применяться в различных дисциплинах, где данные имеют геометрическое распределение нелинейного характера. Особенно он полезен в нейронауке, где нелинейная геометрия многообразий часто о
Abstract
Dimensionality reduction is critical across various domains of science
including neuroscience. Probabilistic Principal Component Analysis (PPCA) is a
prominent dimensionality reduction method that provides a probabilistic
approach unlike the deterministic approach of PCA and serves as a connection
between PCA and Factor Analysis (FA). Despite their power, PPCA and its
extensions are mainly based on linear models and can only describe the data in
a Euclidean coordinate system. However, in many neuroscience applications, data
may be distributed around a nonlinear geometry (i.e., manifold) rather than
lying in the Euclidean space. We develop Probabilistic Geometric Principal
Component Analysis (PGPCA) for such datasets as a new dimensionality reduction
algorithm that can explicitly incorporate knowledge about a given nonlinear
manifold that is first fitted from these data. Further, we show how in addition
to the Euclidean coordinate system, a geometric coordinate system can be
derived for the manifold to capture the deviations of data from the manifold
and noise. We also derive a data-driven EM algorithm for learning the PGPCA
model parameters. As such, PGPCA generalizes PPCA to better describe data
distributions by incorporating a nonlinear manifold geometry. In simulations
and brain data analyses, we show that PGPCA can effectively model the data
distribution around various given manifolds and outperforms PPCA for such data.
Moreover, PGPCA provides the capability to test whether the new geometric
coordinate system better describes the data than the Euclidean one. Finally,
PGPCA can perform dimensionality reduction and learn the data distribution both
around and on the manifold. These capabilities make PGPCA valuable for
enhancing the efficacy of dimensionality reduction for analysis of
high-dimensional data that exhibit noise and are distributed around a nonlinear
manifold.