Manifold Dimension Estimation: An Empirical Study

2509.15517v1 cs.LG, stat.AP 2025-09-23

Авторы:

Zelong Bi, Pierre Lafaye de Micheaux

Резюме на русском

## Контекст Многие достоверные данные в естественных и искусственных системах показывают низкомерую структуру, несмотря на то, что они записаны в высокомерном пространстве. Это так называемое манифолдовое предположение (manifold hypothesis) объясняет, что такие данные часто лежат близко к низкомерному манифолду. Оценивание размерности этого манифолда является ключевым элементом для использования его структуры в машинном обучении и других задачах. Однако существующие методы оценки размерности манифолда широко разрознены и не подвергались систематической оценке. Наша мотивация заключается в том, чтобы определить наилучшие практики и сформулировать рекомендации для практиков и теоретиков в этой области. ## Метод Мы основываем наш подход на восемь представительных разновидностей методов оценки размерности манифолда, включая методы геометрических характеристик, линейных алгоритмов, и теории случайных лесов. Для оценки каждого метода мы разрабатываем контролируемые эксперименты, используя синтетические данные с управляемой размерностью, шумом и кривизной. Эти эксперименты позволяют проверить как отдельные факторы, так и их взаимодействие. Мы также рассматриваем реальные данные с различными структурами и проводим обобщенную оценку методов. Чтобы обеспечить принципиальный подход к гиперпараметровую оптимизацию, мы реализуем техники подбора, такие как кросс-валидация и градиентный поиск. ## Результаты Наши эксперименты показывают, что качество оценки размерности манифолда сильно зависит от уровня шума, кривизны манифолда, и размера выборки. Мы выясняем, какие методы показывают наилучший результат в зависимости от этих факторов. На реальных данных мы проверяем как общую эффективность, так и специфичность каждого метода. Наши результаты также включают стратегию гиперпараметрового подбора, которая позволяет максимизировать качество оценки в зависимости от конкретной структуры данных. Общие выводы указывают, что простые методы часто превосходят более сложные в условиях реальных данных. ## Значимость Результаты нашего исследования имеют большое значение для многих областей, включая обучение на основе манифолдов, распознавание образов, и анализ данных. Мы предлагаем практические рекомендации для выбора методов и гиперпараметров в зависимости от свойств данных. Наши находки могут улучшить эффективность и точность многих приложений, в которых используется манифолдовая структура данных. Будущие исследования могут сфокусироваться на развитии более точных и универса

Abstract

The manifold hypothesis suggests that high-dimensional data often lie on or near a low-dimensional manifold. Estimating the dimension of this manifold is essential for leveraging its structure, yet existing work on dimension estimation is fragmented and lacks systematic evaluation. This article provides a comprehensive survey for both researchers and practitioners. We review often-overlooked theoretical foundations and present eight representative estimators. Through controlled experiments, we analyze how individual factors such as noise, curvature, and sample size affect performance. We also compare the estimators on diverse synthetic and real-world datasets, introducing a principled approach to dataset-specific hyperparameter tuning. Our results offer practical guidance and suggest that, for a problem of this generality, simpler methods often perform better.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Manifold Dimension Estimation: An Empirical Study

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Progression Modeling (JPM): A Probabilistic Framework for Mixed-Pathology ...

Automobile demand forecasting: Spatiotemporal and hierarchical modeling, life cy...

Achieving Skilled and Reliable Daily Probabilistic Forecasts of Wind Power at Su...

ForeSWE: Forecasting Snow-Water Equivalent with an Uncertainty-Aware Attention M...

A Probabilistic Approach to Pose Synchronization for Multi-Reference Alignment w...

Навигация