Minimax optimal transfer learning for high-dimensional additive regression

2509.06308v1 stat.ML, cs.LG, math.ST, stat.TH 2025-09-10
Авторы:

Seung Hyun Moon

Резюме на русском

## Контекст Изучение гомосциентных регрессионных моделей является важной задачей в статистике и машинном обучении, особенно при работе с высокомерной информацией и нестандартными шумавыми распределениями. Одна из сложностей в этой области заключается в том, что доступ к данным может ограничиваться только целевыми выборками, несмотря на то, что существуют связанные нецелевые модели, которые могут повысить точность прогнозирования. Такие ситуации возникают в медицине, финансах и экономике, где недалекость моделей может привести к ошибкам в принятии решений. Это требует развития методов, которые могут эффективно использовать доступные нецелевые данные для повышения точности решений в целевой задаче. ## Метод Этот работа предлагает новую методологию для решения задачи гомосциентной регрессии в рамках подхода трансферного обучения. Основной технический механизм — метод сглаживания бекфитинга с использованием локальной линейной регрессии. Исследователь развивает две вариации этого подхода: одна для объектов с нормальными шумавыми распределениями и другая — для объектов с т HEAVY-TAILED шумавыми распределениями. Метод позволяет учитывать шумы в данных, которые не обязательно имеют нормальное распределение, что делает его универсальным. Более того, в работе представлены новые оценки ошибок и гарантии того, что метод достигает минимаксного оптимального результата при достаточно близких целевой и нецелевой зависимости. ## Результаты Полученные результаты подтверждают эффективность предложенной методологии в сравнении с существующими подходами. Используя симуляционные данные и реальные выборки, автор проверяет работу метода в различных условиях. Особое внимание уделяется ситуациям, когда целевые и нецелевые зависимости отличаются, но по-прежнему могут приносить пользу в обучении. Также доказано, что при достаточно близкости моделей целевой и нецелевой получается минимаксно оптимальный результат. Эти результаты демонстрируют эффективность метода в решении задачи трансферного обучения в высокомерных моделях. ## Значимость Продемонстрированный подход имеет широкое применение в решении задач трансферного обучения в высокомерных моделях. Он позволяет эффективно использовать дополнительные, даже несвязанные, данные для повышения точности прогнозов. Из преимуществ можно отметить универсальность метода в работе с различными типами шумов и высокую точность в условиях близости моделей. Это делает метод полезным в приложениях, где данные не всегда являются полностью надлежащим образом отнесенны к целевой задаче, но могут повлиять на результат. ## В

Abstract

This paper studies high-dimensional additive regression under the transfer learning framework, where one observes samples from a target population together with auxiliary samples from different but potentially related regression models. We first introduce a target-only estimation procedure based on the smooth backfitting estimator with local linear smoothing. In contrast to previous work, we establish general error bounds under sub-Weibull($\alpha$) noise, thereby accommodating heavy-tailed error distributions. In the sub-exponential case ($\alpha=1$), we show that the estimator attains the minimax lower bound under regularity conditions, which requires a substantial departure from existing proof strategies. We then develop a novel two-stage estimation method within a transfer learning framework, and provide theoretical guarantees at both the population and empirical levels. Error bounds are derived for each stage under general tail conditions, and we further demonstrate that the minimax optimal rate is achieved when the auxiliary and target distributions are sufficiently close. All theoretical results are supported by simulation studies and real data analysis.

Ссылки и действия