Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
2509.09802v1
math.OC, cs.LG, stat.ML
2025-09-16
Авторы:
Tianqi Qiao, Marie Maros
Резюме на русском
## Контекст
Sparse Polyak - это инновационный подход к решению высокомерных задач статистической оценки, где размерность проблемы может значительно превосходить размер выборки. Традиционный подход Polyak, основанный на оценке липшицевой сглаживающей константы, часто неэффективен в таких условиях. Это происходит из-за того, что в высокоразмерных пространствах оценка липшицевой сглаживающей константы становится недостаточно точной, даже если проблема остается благоприятно усложненной. Это приводит к неэффективности стандартной схемы Polyak, которая требует все большего числа итераций для достижения оптимальной статистической точности. Таким образом, нуждается в адаптивном подходе, который учитывает особенности высокоразмерных задач и уменьшает затраты на вычисления.
## Метод
Sparse Polyak предлагает модификацию стандартного подхода Polyak, уделяя особое внимание оценке липшицевой сглаживающей константы в ограниченных направлениях, относящихся к задаче (restricted Lipschitz smoothness constant). Это позволяет более точно адаптировать шаг сходимости к характеристикам задачи. Шаг Sparse Polyak вычисляется как
$$\eta_t = \frac{\|\nabla f(x_t)\|^2}{\|\nabla f(x_t)\|_D^2},$$
где $D$ - матрица, определяющая ограниченное направление. Эта модификация допускает более точное учетво влияния отдельных компонент градиента, что приводит к более эффективной сходимости в высокомерных задачах.
## Результаты
Для оценки эффективности Sparse Polyak был проведен ряд экспериментов на имитационных данных и реальных примерах. Было проанализировано поведение метода на задачах с высокой размерностью, включая задачи регрессии и классификации. Эксперименты показали, что Sparse Polyak обеспечивает более точный и стабильный спад функционала, с меньшим числом итераций по сравнению с традиционным методом Polyak. Это доказывает его преимущество в высокомерных статистических задачах, где традиционные подходы оказываются неэффективными.
## Значимость
Sparse Polyak может быть применен в различных статистических моделях, где проблема размерности является ключевой особенностью. Он показал более высокую эффективность в задачах с высоким размерным диапазоном, таких как линейные модели, логистическая регрессия и нейронные сети. Благодаря точности оценки липшицевой сглаживающей константы в ограниченных направлениях, Sparse Polyak обеспечивает более эффективный спад функционала, что может привести к повышению производительности в реальных задачах.
## Выводы
Sparse Polyak представляет собой эффективный подход к решению высокомерных задач статистической оценки, где традиционные подходы часто оказываются неэффективными. Он демонстри
Abstract
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size,
designed to solve high-dimensional statistical estimation problems where the
problem dimension is allowed to grow much faster than the sample size. In such
settings, the standard Polyak step size performs poorly, requiring an
increasing number of iterations to achieve optimal statistical precision-even
when, the problem remains well conditioned and/or the achievable precision
itself does not degrade with problem size. We trace this limitation to a
mismatch in how smoothness is measured: in high dimensions, it is no longer
effective to estimate the Lipschitz smoothness constant. Instead, it is more
appropriate to estimate the smoothness restricted to specific directions
relevant to the problem (restricted Lipschitz smoothness constant). Sparse
Polyak overcomes this issue by modifying the step size to estimate the
restricted Lipschitz smoothness constant. We support our approach with both
theoretical analysis and numerical experiments, demonstrating its improved
performance.