Escaping Saddle Points via Curvature-Calibrated Perturbations: A Complete Analysis with Explicit Constants and Empirical Validation
2508.16540v1
cs.LG, math.OC, stat.ML, 90C26, 90C30, 68T05, 65K05, G.1.6; F.2.1; I.2.6
2025-08-26
Авторы:
Faruk Alpay, Hamdi Alakkad
Резюме на русском
## Контекст
Оптимизация в моделях машинного обучения часто сталкивается с нелинейными функциями, включающими локальные минимумы, строго саддл-точки (где градиент равен нулю, но неверная сигнатура Хессиана) и некоторые нестабильные множества. Эти точки трудно выходить из них при использовании обычных методов оптимизации, таких как градиентный спуск. Этой проблеме уделяется внимание в работах, таких как "Gradient Descent Escapes Saddle Points Efficiently" (J. Ge et al., 2015). Но текущие анализы часто ограничиваются аппроксимативными результатами или не полностью исследуют экспериментальное подтверждение. **"Escaping Saddle Points via Curvature-Calibrated Perturbations: A Complete Analysis with Explicit Constants and Empirical Validation"** (F. Alpay, H. Alakkad) предлагает полный анализ с явными константами и проведением эмпирических испытаний.
## Метод
Авторы предлагают **Perturbed Saddle-escape Descent (PSD)** — алгоритм, который объединяет стадии градиентного спуска и саддл-точечного экспорта. Он работает с функцией $f:\mathbb{R}^d \to \mathbb{R}$, имеющей $\ell$-Липшицов градиент и $\rho$-Липшицов Хессиан. Метод использует периодические небольшие шагы (perturbations) вдоль сферы, чтобы сбрасывать саддл-точки. Основной теоретический результат: PSD находит $(\epsilon, \sqrt{\rho\epsilon})$-точку второго порядка за $O(\ell\Delta_f/\epsilon^2)$ шагов для стадии спуска и $O((\ell/\sqrt{\rho\epsilon})\log(d/\delta))$ для каждой эпизода экспорта, с числом эпизодов не более $O(\ell\Delta_f/\epsilon^2)$. Используется три версии PSD: оригинальный PSD, PSD-Probe (с finite-difference) и PSGD (стохастическая версия с мини-батчами).
## Результаты
Авторы проводили эксперименты с оба синтетические (генерируемые функции) и реальными задачами машинного обучения. Они показали, что PSD не только работает в теории, но и эффективно в практике. Особое внимание уделено тому, что размерность $d$ имеет лишь логарифмическое влияние на количество итераций. Также показано, что PSD-Probe и PSGD демонстрируют хорошую стойкость при работе с большими данными. Эксперименты подтверждают, что PSD соответствует теоретическим прогнозам и подходит для решения задач с плотными локальными минимумами.
## Значимость
Предложенный подход имеет широкие применения в машинном обучении, особенно в задачах регрессии, классификации и нейронных сетей. Он позволяет более эффективно работать с трудно оптимизируемыми функциями, уменьшая время расчетов и улучшая точность. Важность лежит в универсальности метода и точности результатов, учитывающей явные константы и эксперименты. Потенциальное влияние заключается в улучшении эффективности глобального поиска в нелинейных моделях.
## Выводы
Авто
Abstract
We present a comprehensive theoretical analysis of first-order methods for
escaping strict saddle points in smooth non-convex optimization. Our main
contribution is a Perturbed Saddle-escape Descent (PSD) algorithm with fully
explicit constants and a rigorous separation between gradient-descent and
saddle-escape phases. For a function $f:\mathbb{R}^d\to\mathbb{R}$ with
$\ell$-Lipschitz gradient and $\rho$-Lipschitz Hessian, we prove that PSD finds
an $(\epsilon,\sqrt{\rho\epsilon})$-approximate second-order stationary point
with high probability using at most $O(\ell\Delta_f/\epsilon^2)$ gradient
evaluations for the descent phase plus
$O((\ell/\sqrt{\rho\epsilon})\log(d/\delta))$ evaluations per escape episode,
with at most $O(\ell\Delta_f/\epsilon^2)$ episodes needed. We validate our
theoretical predictions through extensive experiments across both synthetic
functions and practical machine learning tasks, confirming the logarithmic
dimension dependence and the predicted per-episode function decrease. We also
provide complete algorithmic specifications including a finite-difference
variant (PSD-Probe) and a stochastic extension (PSGD) with robust mini-batch
sizing.