Risk Comparisons in Linear Regression: Implicit Regularization Dominates Explicit Regularization

2509.17251v1 stat.ML, cs.LG 2025-09-24

Авторы:

Jingfeng Wu, Peter L. Bartlett, Jason D. Lee, Sham M. Kakade, Bin Yu

Резюме на русском

## Контекст Моделирование и анализ рисков в линейной регрессии являются ключевыми задачами в машинном обучении, задачами, которые часто встречаются в различных областях, таких как экономика, биология и интернет-технологии. Одной из основных проблем в этой области является понимание и сравнение рисков, связанных с различными методами регулярного обучения, такими как градиентный спуск (GD), регрессия риджа и онлайн-статистический градиентный спуск (SGD). Несмотря на то, что существуют теоретические результаты, показывающие, что для линейных регрессионных задач с определенными условиями объема и источника градиентный спуск является минимаксно оптимальным, теоретические подходы не всегда полностью отражают реальность. Этот факт стимулировал разработку методов для точного сравнения этих методов в зависимости от конкретных условий задачи. Таким образом, целью этой работы является оказание более глубокого понимания рисков, связанных с этими методами регуляризации, и их выбора в зависимости от конкретных характеристик проблемы. ## Метод Для сравнения рисков в линейной регрессии в данной работе применяется многослойный подход, включающий анализ минимаксной теории, а также индивидуальное сравнение рисков в пространстве реальных случаев. Математический аппарат включает теорию вероятности, функциональный анализ и теорию регуляризации. Одним из ключевых элементов этого подхода является использование теории ковариации, которая позволяет проанализировать характеристики проблемы и выбрать наиболее подходящий метод регуляризации. В частности, проводится анализ рисков для градиентного спуска, регрессии риджа и онлайн-статистического градиентного спуска в различных условиях, включая задачи с быстро убывающими и динамическими ковариационными спектрами. ## Результаты В результате проведенных экспериментов были получены следующие основные выводы: 1. **Градиентный спуск всегда побеждает регрессию риджа:** В условиях схожей регуляризации градиентный спуск показывает риск, который всегда в пределах константного множителя от риска регрессии риджа. Однако, при оптимальной настройке, регрессия риджа может быть по степени хуже. 2. **Градиентный спуск и онлайн-статистический градиентный спуск являются несравнимыми:** Хотя градиентный спуск может быть по степени лучше, тогда как SGD может также показать себя лучше в определенных задачах, в частности, при обучении с бенignым переобучением. 3. **Градиентный спуск побеждает SGD в задачах с быстро убывающими и динамическими ковари

Abstract

Existing theory suggests that for linear regression problems categorized by capacity and source conditions, gradient descent (GD) is always minimax optimal, while both ridge regression and online stochastic gradient descent (SGD) are polynomially suboptimal for certain categories of such problems. Moving beyond minimax theory, this work provides instance-wise comparisons of the finite-sample risks for these algorithms on any well-specified linear regression problem. Our analysis yields three key findings. First, GD dominates ridge regression: with comparable regularization, the excess risk of GD is always within a constant factor of ridge, but ridge can be polynomially worse even when tuned optimally. Second, GD is incomparable with SGD. While it is known that for certain problems GD can be polynomially better than SGD, the reverse is also true: we construct problems, inspired by benign overfitting theory, where optimally stopped GD is polynomially worse. Finally, GD dominates SGD for a significant subclass of problems -- those with fast and continuously decaying covariance spectra -- which includes all problems satisfying the standard capacity condition.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Risk Comparisons in Linear Regression: Implicit Regularization Dominates Explicit Regularization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Consequences of Kernel Regularity for Bandit Optimization

Comparison of neural network training strategies for the simulation of dynamical...

Informative missingness and its implications in semi-supervised learning

Recurrent Neural Networks with Linear Structures for Electricity Price Forecasti...

Control Consistency Losses for Diffusion Bridges

Навигация