Risk Comparisons in Linear Regression: Implicit Regularization Dominates Explicit Regularization
2509.17251v1
stat.ML, cs.LG
2025-09-24
Авторы:
Jingfeng Wu, Peter L. Bartlett, Jason D. Lee, Sham M. Kakade, Bin Yu
Резюме на русском
## Контекст
Моделирование и анализ рисков в линейной регрессии являются ключевыми задачами в машинном обучении, задачами, которые часто встречаются в различных областях, таких как экономика, биология и интернет-технологии. Одной из основных проблем в этой области является понимание и сравнение рисков, связанных с различными методами регулярного обучения, такими как градиентный спуск (GD), регрессия риджа и онлайн-статистический градиентный спуск (SGD). Несмотря на то, что существуют теоретические результаты, показывающие, что для линейных регрессионных задач с определенными условиями объема и источника градиентный спуск является минимаксно оптимальным, теоретические подходы не всегда полностью отражают реальность. Этот факт стимулировал разработку методов для точного сравнения этих методов в зависимости от конкретных условий задачи. Таким образом, целью этой работы является оказание более глубокого понимания рисков, связанных с этими методами регуляризации, и их выбора в зависимости от конкретных характеристик проблемы.
## Метод
Для сравнения рисков в линейной регрессии в данной работе применяется многослойный подход, включающий анализ минимаксной теории, а также индивидуальное сравнение рисков в пространстве реальных случаев. Математический аппарат включает теорию вероятности, функциональный анализ и теорию регуляризации. Одним из ключевых элементов этого подхода является использование теории ковариации, которая позволяет проанализировать характеристики проблемы и выбрать наиболее подходящий метод регуляризации. В частности, проводится анализ рисков для градиентного спуска, регрессии риджа и онлайн-статистического градиентного спуска в различных условиях, включая задачи с быстро убывающими и динамическими ковариационными спектрами.
## Результаты
В результате проведенных экспериментов были получены следующие основные выводы:
1. **Градиентный спуск всегда побеждает регрессию риджа:** В условиях схожей регуляризации градиентный спуск показывает риск, который всегда в пределах константного множителя от риска регрессии риджа. Однако, при оптимальной настройке, регрессия риджа может быть по степени хуже.
2. **Градиентный спуск и онлайн-статистический градиентный спуск являются несравнимыми:** Хотя градиентный спуск может быть по степени лучше, тогда как SGD может также показать себя лучше в определенных задачах, в частности, при обучении с бенignым переобучением.
3. **Градиентный спуск побеждает SGD в задачах с быстро убывающими и динамическими ковари
Abstract
Existing theory suggests that for linear regression problems categorized by
capacity and source conditions, gradient descent (GD) is always minimax
optimal, while both ridge regression and online stochastic gradient descent
(SGD) are polynomially suboptimal for certain categories of such problems.
Moving beyond minimax theory, this work provides instance-wise comparisons of
the finite-sample risks for these algorithms on any well-specified linear
regression problem.
Our analysis yields three key findings. First, GD dominates ridge regression:
with comparable regularization, the excess risk of GD is always within a
constant factor of ridge, but ridge can be polynomially worse even when tuned
optimally. Second, GD is incomparable with SGD. While it is known that for
certain problems GD can be polynomially better than SGD, the reverse is also
true: we construct problems, inspired by benign overfitting theory, where
optimally stopped GD is polynomially worse. Finally, GD dominates SGD for a
significant subclass of problems -- those with fast and continuously decaying
covariance spectra -- which includes all problems satisfying the standard
capacity condition.
Ссылки и действия
Дополнительные ресурсы: