Manifold Dimension Estimation: An Empirical Study
2509.15517v1
cs.LG, stat.AP
2025-09-23
Авторы:
Zelong Bi, Pierre Lafaye de Micheaux
Резюме на русском
## Контекст
Многие достоверные данные в естественных и искусственных системах показывают низкомерую структуру, несмотря на то, что они записаны в высокомерном пространстве. Это так называемое манифолдовое предположение (manifold hypothesis) объясняет, что такие данные часто лежат близко к низкомерному манифолду. Оценивание размерности этого манифолда является ключевым элементом для использования его структуры в машинном обучении и других задачах. Однако существующие методы оценки размерности манифолда широко разрознены и не подвергались систематической оценке. Наша мотивация заключается в том, чтобы определить наилучшие практики и сформулировать рекомендации для практиков и теоретиков в этой области.
## Метод
Мы основываем наш подход на восемь представительных разновидностей методов оценки размерности манифолда, включая методы геометрических характеристик, линейных алгоритмов, и теории случайных лесов. Для оценки каждого метода мы разрабатываем контролируемые эксперименты, используя синтетические данные с управляемой размерностью, шумом и кривизной. Эти эксперименты позволяют проверить как отдельные факторы, так и их взаимодействие. Мы также рассматриваем реальные данные с различными структурами и проводим обобщенную оценку методов. Чтобы обеспечить принципиальный подход к гиперпараметровую оптимизацию, мы реализуем техники подбора, такие как кросс-валидация и градиентный поиск.
## Результаты
Наши эксперименты показывают, что качество оценки размерности манифолда сильно зависит от уровня шума, кривизны манифолда, и размера выборки. Мы выясняем, какие методы показывают наилучший результат в зависимости от этих факторов. На реальных данных мы проверяем как общую эффективность, так и специфичность каждого метода. Наши результаты также включают стратегию гиперпараметрового подбора, которая позволяет максимизировать качество оценки в зависимости от конкретной структуры данных. Общие выводы указывают, что простые методы часто превосходят более сложные в условиях реальных данных.
## Значимость
Результаты нашего исследования имеют большое значение для многих областей, включая обучение на основе манифолдов, распознавание образов, и анализ данных. Мы предлагаем практические рекомендации для выбора методов и гиперпараметров в зависимости от свойств данных. Наши находки могут улучшить эффективность и точность многих приложений, в которых используется манифолдовая структура данных. Будущие исследования могут сфокусироваться на развитии более точных и универса
Abstract
The manifold hypothesis suggests that high-dimensional data often lie on or
near a low-dimensional manifold. Estimating the dimension of this manifold is
essential for leveraging its structure, yet existing work on dimension
estimation is fragmented and lacks systematic evaluation. This article provides
a comprehensive survey for both researchers and practitioners. We review
often-overlooked theoretical foundations and present eight representative
estimators. Through controlled experiments, we analyze how individual factors
such as noise, curvature, and sample size affect performance. We also compare
the estimators on diverse synthetic and real-world datasets, introducing a
principled approach to dataset-specific hyperparameter tuning. Our results
offer practical guidance and suggest that, for a problem of this generality,
simpler methods often perform better.
Ссылки и действия
Дополнительные ресурсы: