Minimax optimal transfer learning for high-dimensional additive regression
2509.06308v1
stat.ML, cs.LG, math.ST, stat.TH
2025-09-10
Авторы:
Seung Hyun Moon
Резюме на русском
## Контекст
Изучение гомосциентных регрессионных моделей является важной задачей в статистике и машинном обучении, особенно при работе с высокомерной информацией и нестандартными шумавыми распределениями. Одна из сложностей в этой области заключается в том, что доступ к данным может ограничиваться только целевыми выборками, несмотря на то, что существуют связанные нецелевые модели, которые могут повысить точность прогнозирования. Такие ситуации возникают в медицине, финансах и экономике, где недалекость моделей может привести к ошибкам в принятии решений. Это требует развития методов, которые могут эффективно использовать доступные нецелевые данные для повышения точности решений в целевой задаче.
## Метод
Этот работа предлагает новую методологию для решения задачи гомосциентной регрессии в рамках подхода трансферного обучения. Основной технический механизм — метод сглаживания бекфитинга с использованием локальной линейной регрессии. Исследователь развивает две вариации этого подхода: одна для объектов с нормальными шумавыми распределениями и другая — для объектов с т HEAVY-TAILED шумавыми распределениями. Метод позволяет учитывать шумы в данных, которые не обязательно имеют нормальное распределение, что делает его универсальным. Более того, в работе представлены новые оценки ошибок и гарантии того, что метод достигает минимаксного оптимального результата при достаточно близких целевой и нецелевой зависимости.
## Результаты
Полученные результаты подтверждают эффективность предложенной методологии в сравнении с существующими подходами. Используя симуляционные данные и реальные выборки, автор проверяет работу метода в различных условиях. Особое внимание уделяется ситуациям, когда целевые и нецелевые зависимости отличаются, но по-прежнему могут приносить пользу в обучении. Также доказано, что при достаточно близкости моделей целевой и нецелевой получается минимаксно оптимальный результат. Эти результаты демонстрируют эффективность метода в решении задачи трансферного обучения в высокомерных моделях.
## Значимость
Продемонстрированный подход имеет широкое применение в решении задач трансферного обучения в высокомерных моделях. Он позволяет эффективно использовать дополнительные, даже несвязанные, данные для повышения точности прогнозов. Из преимуществ можно отметить универсальность метода в работе с различными типами шумов и высокую точность в условиях близости моделей. Это делает метод полезным в приложениях, где данные не всегда являются полностью надлежащим образом отнесенны к целевой задаче, но могут повлиять на результат.
## В
Abstract
This paper studies high-dimensional additive regression under the transfer
learning framework, where one observes samples from a target population
together with auxiliary samples from different but potentially related
regression models. We first introduce a target-only estimation procedure based
on the smooth backfitting estimator with local linear smoothing. In contrast to
previous work, we establish general error bounds under sub-Weibull($\alpha$)
noise, thereby accommodating heavy-tailed error distributions. In the
sub-exponential case ($\alpha=1$), we show that the estimator attains the
minimax lower bound under regularity conditions, which requires a substantial
departure from existing proof strategies. We then develop a novel two-stage
estimation method within a transfer learning framework, and provide theoretical
guarantees at both the population and empirical levels. Error bounds are
derived for each stage under general tail conditions, and we further
demonstrate that the minimax optimal rate is achieved when the auxiliary and
target distributions are sufficiently close. All theoretical results are
supported by simulation studies and real data analysis.