Breaking the curse of dimensionality for linear rules: optimal predictors over the ellipsoid
2509.21174v1
stat.ML, cs.LG
2025-09-27
Авторы:
Alexis Ayme, Bruno Loureiro
Резюме на русском
#### Контекст
Обработка данных с высокой размерностью широко применяется в машинном обучении, статистике и принятии решений. Однако с ростом размерности данных возрастает риск ухудшения качества моделей, что известно как "курсая диаметральности" (curse of dimensionality). Эта проблема становится актуальной при использовании линейных правил в статистическом обучении, таких как регрессия Риджа, десцента градиентов и методы ядерного анализа. Необходимо изучить, какие ограничения на структуру данных позволяют избежать ухудшения обобщающих свойств моделей при увеличении размерности.
#### Метод
Авторы изучают класс линейных предсказателей, expessed как суммы линейных комбинаций меток обучающих примеров: $f(X) = \sum_{i=1}^{n} l_{i}(X) Y_i$. Основной методологией является анализ необходимых условий для эффективности таких предсказателей, определенных через априорную значимость вектора $\theta$ в эллипсоидной области. Используются методы теории вероятности и теории хаоса для оценки обобщающей способности моделей.
#### Результаты
Получены точные оценки для обобщающей способности линейных предсказателей:
1. Неасимптотические доверительные интервалы для обобщающей ошибки.
2. Точная оценка для подкласса линейных предсказателей с вращательной инвариантностью.
3. Однозначное влияние геометрии объектов на обобщающую способность, в частности, разрешается зависимость между риском и внутренней размерностью данных.
#### Значимость
Результаты имеют первоклассное значение для машинного обучения, статистики и принятия решений. Например, в задачах классификации, регрессии и детектирования зависимостей модели становятся более надежными в высокомерностных задачах благодаря полученным оценкам. Данные результаты также доступны для улучшения существующих моделей, например, классификаторов и линейных предсказателей в области технологий и анализа больших данных.
#### Выводы
Авторы установили, что условия вроде структуры данных и геометрии объектов могут значительно снизить риск ухудшения обобщающих свойств моделей при увеличении размерности. Эти находки могут стать основой для развития новых методов в области машинного обучения. Будущие исследования должны фокусироваться на расширении моделей и применении этих положений к реальным задачам.
Abstract
In this work, we address the following question: What minimal structural
assumptions are needed to prevent the degradation of statistical learning
bounds with increasing dimensionality? We investigate this question in the
classical statistical setting of signal estimation from $n$ independent linear
observations $Y_i = X_i^{\top}\theta + \epsilon_i$. Our focus is on the
generalization properties of a broad family of predictors that can be expressed
as linear combinations of the training labels, $f(X) = \sum_{i=1}^{n} l_{i}(X)
Y_i$. This class -- commonly referred to as linear prediction rules --
encompasses a wide range of popular parametric and non-parametric estimators,
including ridge regression, gradient descent, and kernel methods. Our
contributions are twofold. First, we derive non-asymptotic upper and lower
bounds on the generalization error for this class under the assumption that the
Bayes predictor $\theta$ lies in an ellipsoid. Second, we establish a lower
bound for the subclass of rotationally invariant linear prediction rules when
the Bayes predictor is fixed. Our analysis highlights two fundamental
contributions to the risk: (a) a variance-like term that captures the intrinsic
dimensionality of the data; (b) the noiseless error, a term that arises
specifically in the high-dimensional regime. These findings shed light on the
role of structural assumptions in mitigating the curse of dimensionality.
Ссылки и действия
Дополнительные ресурсы: