Probabilistic Geometric Principal Component Analysis with application to neural data

2509.18469v1 cs.LG, q-bio.NC, stat.ML 2025-09-25
Авторы:

Han-Lin Hsieh, Maryam M. Shanechi

Резюме на русском

## Контекст Уменьшение размерности является критическим аспектом различных научных областей, в том числе нейронаук. Одним из значимых подходов является **Пробабилистический Геометрический Анализ Главных Компонент (PGPCA)**. Это метод, который расширяет **Пробабилистический Анализ Главных Компонент (PPCA)**, учитывая геометрию нелинейных многообразий, на которых распределены данные. Обычное **PPCA** основывается на линейных моделях и ограничено работой в евклидовом пространстве. Однако многие данные, особенно в нейронауке, имеют нетривиальную геометрию, лежащую на нетривиальных многообразиях. Это приводит к несоответствию между данными и моделью. **PGPCA** решает эту проблему, используя геометрические представления многообразий для описания и уменьшения размерности данных, находящихся на них. ## Метод **PGPCA** создан на основе **PPCA**, но включает в себя геометрическую модель многообразия. Данный метод позволяет построить не только линейную модель размерности, но также выделять геометрические параметры многообразия, на которых распределены данные. Главная идея заключается в том, что вместо того, чтобы рассматривать точки в евклидовом пространстве, **PGPCA** предлагает моделировать данные в геометрической системе координат многообразия. Это позволяет учитывать нетривиальные девиации от линейных моделей и шумы, связанные с нелинейной геометрией многообразия. В ходе работы метода происходит построение модели, основанной на эмпирических данных, и оценка параметров многообразия и шума. Этот подход позволяет не только уменьшить размерность, но и понять, насколько геометрическое представление данных более точно описывает данные, чем линейная модель. ## Результаты **PGPCA** протестирован на симуляционных данных и данных, полученных из мозга. Он показал значительные улучшения по сравнению с **PPCA** в ситуациях, когда данные распределены нелинейным образом. Одним из ключевых результатов является возможность сравнения разных моделей геометрии. **PGPCA** может определить, является ли геометрия многообразия более точной моделью для данных, чем евклидовый пространственный подход. Помимо этого, **PGPCA** позволяет проводить размерностный анализ данных, которые распределены как на многообразии, так и в его окрестностях, что делает этот подход применимым для широкого круга задач в нейронауке. ## Значимость **PGPCA** может применяться в различных дисциплинах, где данные имеют геометрическое распределение нелинейного характера. Особенно он полезен в нейронауке, где нелинейная геометрия многообразий часто о

Abstract

Dimensionality reduction is critical across various domains of science including neuroscience. Probabilistic Principal Component Analysis (PPCA) is a prominent dimensionality reduction method that provides a probabilistic approach unlike the deterministic approach of PCA and serves as a connection between PCA and Factor Analysis (FA). Despite their power, PPCA and its extensions are mainly based on linear models and can only describe the data in a Euclidean coordinate system. However, in many neuroscience applications, data may be distributed around a nonlinear geometry (i.e., manifold) rather than lying in the Euclidean space. We develop Probabilistic Geometric Principal Component Analysis (PGPCA) for such datasets as a new dimensionality reduction algorithm that can explicitly incorporate knowledge about a given nonlinear manifold that is first fitted from these data. Further, we show how in addition to the Euclidean coordinate system, a geometric coordinate system can be derived for the manifold to capture the deviations of data from the manifold and noise. We also derive a data-driven EM algorithm for learning the PGPCA model parameters. As such, PGPCA generalizes PPCA to better describe data distributions by incorporating a nonlinear manifold geometry. In simulations and brain data analyses, we show that PGPCA can effectively model the data distribution around various given manifolds and outperforms PPCA for such data. Moreover, PGPCA provides the capability to test whether the new geometric coordinate system better describes the data than the Euclidean one. Finally, PGPCA can perform dimensionality reduction and learn the data distribution both around and on the manifold. These capabilities make PGPCA valuable for enhancing the efficacy of dimensionality reduction for analysis of high-dimensional data that exhibit noise and are distributed around a nonlinear manifold.

Ссылки и действия