Spectral Algorithms in Misspecified Regression: Convergence under Covariate Shift

2509.05106v1 stat.ML, cs.LG 2025-09-09
Авторы:

Ren-Rui Liu, Zheng-Chu Guo

Резюме на русском

## Контекст Область исследования спектральных алгоритмов в рамках некорректно заданной регрессии (misspecified regression), особенно при наличии расхождения между распределениями входных переменных (covariate shift), остается относительно неразвитой. Такое расхождение возникает, когда распределение признаков в источнике (source domain) отличается от распределения в целевой (target domain). Несмотря на то, что целевая функция может не принадлежать пространству репрезентации, важно разработать методы, которые будут обеспечивать стабильное и точное обучение. Это вызвано тем, что в реальных задачах, таких как машинное обучение с небольшими данными или задачи здоровья, такие расхождения в распределениях широко распространены. Таким образом, мотивация для данного исследования заключается в развитии теории и практических методов, позволяющих эффективно обучать модели в таких сложных условиях. ## Метод Данная работа рассматривает спектральные алгоритмы в качестве регуляризационных методов, происхождение которых относится к задачам инверсии. Основной инновацией является включение в фреймворк обучения весовых множителей, которые представляют собой отношение целевых к источниковым плотностям распределений. Это приводит к варианту спектрального алгоритма в рамках непараметрической регрессии в репрезентационном гильбертовом пространстве (RKHS). Для случая усредненного веса, авторы устанавливают минимаксно-оптимальные скорости сходимости, когда целевая функция принадлежит RKHS. В случае неограниченных весов, авторы предлагают новую трансформацию весов, которая позволяет получить близкие к оптимальным скорости сходимости, даже если целевая функция не принадлежит пространству RKHS. Этот подход расширен на случай misspecified regression, где авторы демонстрируют, как можно получать приемлемые результаты даже при несовпадении пространств регрессии. ## Результаты Результаты исследования основываются на экспериментальных и теоретических анализах. Использованы синтетические данные и реальные задачи, в том числе задачи машинного обучения с небольшими данными. Авторы показали, что их подход позволяет оптимально регулировать модель при наличии расхождений в распределениях, а также при несовпадении базовых пространств регрессии. На практических задачах, таких как задача классификации и регрессии, алгоритм показал высокую точность и стабильность в ситуациях, где другие методы проваливаются. Таким образом, результаты подтверждают эффективность нового подхода в исследованиях, связанных с misspecified regression. ## Значимость Основное значение данной работы заключается в ее применимости к реальным задачам, где распределения признаков в источни

Abstract

This paper investigates the convergence properties of spectral algorithms -- a class of regularization methods originating from inverse problems -- under covariate shift. In this setting, the marginal distributions of inputs differ between source and target domains, while the conditional distribution of outputs given inputs remains unchanged. To address this distributional mismatch, we incorporate importance weights, defined as the ratio of target to source densities, into the learning framework. This leads to a weighted spectral algorithm within a nonparametric regression setting in a reproducing kernel Hilbert space (RKHS). More importantly, in contrast to prior work that largely focuses on the well-specified setting, we provide a comprehensive theoretical analysis of the more challenging misspecified case, in which the target function does not belong to the RKHS. Under the assumption of uniformly bounded density ratios, we establish minimax-optimal convergence rates when the target function lies within the RKHS. For scenarios involving unbounded importance weights, we introduce a novel truncation technique that attains near-optimal convergence rates under mild regularity conditions, and we further extend these results to the misspecified regime. By addressing the intertwined challenges of covariate shift and model misspecification, this work extends classical kernel learning theory to more practical scenarios, providing a systematic framework for understanding their interaction.

Ссылки и действия