Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

2509.09802v1 math.OC, cs.LG, stat.ML 2025-09-16

Авторы:

Tianqi Qiao, Marie Maros

Резюме на русском

## Контекст Sparse Polyak - это инновационный подход к решению высокомерных задач статистической оценки, где размерность проблемы может значительно превосходить размер выборки. Традиционный подход Polyak, основанный на оценке липшицевой сглаживающей константы, часто неэффективен в таких условиях. Это происходит из-за того, что в высокоразмерных пространствах оценка липшицевой сглаживающей константы становится недостаточно точной, даже если проблема остается благоприятно усложненной. Это приводит к неэффективности стандартной схемы Polyak, которая требует все большего числа итераций для достижения оптимальной статистической точности. Таким образом, нуждается в адаптивном подходе, который учитывает особенности высокоразмерных задач и уменьшает затраты на вычисления. ## Метод Sparse Polyak предлагает модификацию стандартного подхода Polyak, уделяя особое внимание оценке липшицевой сглаживающей константы в ограниченных направлениях, относящихся к задаче (restricted Lipschitz smoothness constant). Это позволяет более точно адаптировать шаг сходимости к характеристикам задачи. Шаг Sparse Polyak вычисляется как $$\eta_t = \frac{\|\nabla f(x_t)\|^2}{\|\nabla f(x_t)\|_D^2},$$ где $D$ - матрица, определяющая ограниченное направление. Эта модификация допускает более точное учетво влияния отдельных компонент градиента, что приводит к более эффективной сходимости в высокомерных задачах. ## Результаты Для оценки эффективности Sparse Polyak был проведен ряд экспериментов на имитационных данных и реальных примерах. Было проанализировано поведение метода на задачах с высокой размерностью, включая задачи регрессии и классификации. Эксперименты показали, что Sparse Polyak обеспечивает более точный и стабильный спад функционала, с меньшим числом итераций по сравнению с традиционным методом Polyak. Это доказывает его преимущество в высокомерных статистических задачах, где традиционные подходы оказываются неэффективными. ## Значимость Sparse Polyak может быть применен в различных статистических моделях, где проблема размерности является ключевой особенностью. Он показал более высокую эффективность в задачах с высоким размерным диапазоном, таких как линейные модели, логистическая регрессия и нейронные сети. Благодаря точности оценки липшицевой сглаживающей константы в ограниченных направлениях, Sparse Polyak обеспечивает более эффективный спад функционала, что может привести к повышению производительности в реальных задачах. ## Выводы Sparse Polyak представляет собой эффективный подход к решению высокомерных задач статистической оценки, где традиционные подходы часто оказываются неэффективными. Он демонстри

Abstract

We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Safeguarded Stochastic Polyak Step Sizes for Non-smooth Optimization: Robust Per...

Efficient Penalty-Based Bilevel Methods: Improved Analysis, Novel Updates, and F...

DIGing--SGLD: Decentralized and Scalable Langevin Sampling over Time--Varying Ne...

Global Convergence of Four-Layer Matrix Factorization under Random Initializatio...

A Support-Set Algorithm for Optimization Problems with Nonnegative and Orthogona...

Навигация