Breaking the curse of dimensionality for linear rules: optimal predictors over the ellipsoid

2509.21174v1 stat.ML, cs.LG 2025-09-27
Авторы:

Alexis Ayme, Bruno Loureiro

Резюме на русском

#### Контекст Обработка данных с высокой размерностью широко применяется в машинном обучении, статистике и принятии решений. Однако с ростом размерности данных возрастает риск ухудшения качества моделей, что известно как "курсая диаметральности" (curse of dimensionality). Эта проблема становится актуальной при использовании линейных правил в статистическом обучении, таких как регрессия Риджа, десцента градиентов и методы ядерного анализа. Необходимо изучить, какие ограничения на структуру данных позволяют избежать ухудшения обобщающих свойств моделей при увеличении размерности. #### Метод Авторы изучают класс линейных предсказателей, expessed как суммы линейных комбинаций меток обучающих примеров: $f(X) = \sum_{i=1}^{n} l_{i}(X) Y_i$. Основной методологией является анализ необходимых условий для эффективности таких предсказателей, определенных через априорную значимость вектора $\theta$ в эллипсоидной области. Используются методы теории вероятности и теории хаоса для оценки обобщающей способности моделей. #### Результаты Получены точные оценки для обобщающей способности линейных предсказателей: 1. Неасимптотические доверительные интервалы для обобщающей ошибки. 2. Точная оценка для подкласса линейных предсказателей с вращательной инвариантностью. 3. Однозначное влияние геометрии объектов на обобщающую способность, в частности, разрешается зависимость между риском и внутренней размерностью данных. #### Значимость Результаты имеют первоклассное значение для машинного обучения, статистики и принятия решений. Например, в задачах классификации, регрессии и детектирования зависимостей модели становятся более надежными в высокомерностных задачах благодаря полученным оценкам. Данные результаты также доступны для улучшения существующих моделей, например, классификаторов и линейных предсказателей в области технологий и анализа больших данных. #### Выводы Авторы установили, что условия вроде структуры данных и геометрии объектов могут значительно снизить риск ухудшения обобщающих свойств моделей при увеличении размерности. Эти находки могут стать основой для развития новых методов в области машинного обучения. Будущие исследования должны фокусироваться на расширении моделей и применении этих положений к реальным задачам.

Abstract

In this work, we address the following question: What minimal structural assumptions are needed to prevent the degradation of statistical learning bounds with increasing dimensionality? We investigate this question in the classical statistical setting of signal estimation from $n$ independent linear observations $Y_i = X_i^{\top}\theta + \epsilon_i$. Our focus is on the generalization properties of a broad family of predictors that can be expressed as linear combinations of the training labels, $f(X) = \sum_{i=1}^{n} l_{i}(X) Y_i$. This class -- commonly referred to as linear prediction rules -- encompasses a wide range of popular parametric and non-parametric estimators, including ridge regression, gradient descent, and kernel methods. Our contributions are twofold. First, we derive non-asymptotic upper and lower bounds on the generalization error for this class under the assumption that the Bayes predictor $\theta$ lies in an ellipsoid. Second, we establish a lower bound for the subclass of rotationally invariant linear prediction rules when the Bayes predictor is fixed. Our analysis highlights two fundamental contributions to the risk: (a) a variance-like term that captures the intrinsic dimensionality of the data; (b) the noiseless error, a term that arises specifically in the high-dimensional regime. These findings shed light on the role of structural assumptions in mitigating the curse of dimensionality.

Ссылки и действия