Escaping Saddle Points via Curvature-Calibrated Perturbations: A Complete Analysis with Explicit Constants and Empirical Validation

2508.16540v1 cs.LG, math.OC, stat.ML, 90C26, 90C30, 68T05, 65K05, G.1.6; F.2.1; I.2.6 2025-08-26
Авторы:

Faruk Alpay, Hamdi Alakkad

Резюме на русском

## Контекст Оптимизация в моделях машинного обучения часто сталкивается с нелинейными функциями, включающими локальные минимумы, строго саддл-точки (где градиент равен нулю, но неверная сигнатура Хессиана) и некоторые нестабильные множества. Эти точки трудно выходить из них при использовании обычных методов оптимизации, таких как градиентный спуск. Этой проблеме уделяется внимание в работах, таких как "Gradient Descent Escapes Saddle Points Efficiently" (J. Ge et al., 2015). Но текущие анализы часто ограничиваются аппроксимативными результатами или не полностью исследуют экспериментальное подтверждение. **"Escaping Saddle Points via Curvature-Calibrated Perturbations: A Complete Analysis with Explicit Constants and Empirical Validation"** (F. Alpay, H. Alakkad) предлагает полный анализ с явными константами и проведением эмпирических испытаний. ## Метод Авторы предлагают **Perturbed Saddle-escape Descent (PSD)** — алгоритм, который объединяет стадии градиентного спуска и саддл-точечного экспорта. Он работает с функцией $f:\mathbb{R}^d \to \mathbb{R}$, имеющей $\ell$-Липшицов градиент и $\rho$-Липшицов Хессиан. Метод использует периодические небольшие шагы (perturbations) вдоль сферы, чтобы сбрасывать саддл-точки. Основной теоретический результат: PSD находит $(\epsilon, \sqrt{\rho\epsilon})$-точку второго порядка за $O(\ell\Delta_f/\epsilon^2)$ шагов для стадии спуска и $O((\ell/\sqrt{\rho\epsilon})\log(d/\delta))$ для каждой эпизода экспорта, с числом эпизодов не более $O(\ell\Delta_f/\epsilon^2)$. Используется три версии PSD: оригинальный PSD, PSD-Probe (с finite-difference) и PSGD (стохастическая версия с мини-батчами). ## Результаты Авторы проводили эксперименты с оба синтетические (генерируемые функции) и реальными задачами машинного обучения. Они показали, что PSD не только работает в теории, но и эффективно в практике. Особое внимание уделено тому, что размерность $d$ имеет лишь логарифмическое влияние на количество итераций. Также показано, что PSD-Probe и PSGD демонстрируют хорошую стойкость при работе с большими данными. Эксперименты подтверждают, что PSD соответствует теоретическим прогнозам и подходит для решения задач с плотными локальными минимумами. ## Значимость Предложенный подход имеет широкие применения в машинном обучении, особенно в задачах регрессии, классификации и нейронных сетей. Он позволяет более эффективно работать с трудно оптимизируемыми функциями, уменьшая время расчетов и улучшая точность. Важность лежит в универсальности метода и точности результатов, учитывающей явные константы и эксперименты. Потенциальное влияние заключается в улучшении эффективности глобального поиска в нелинейных моделях. ## Выводы Авто

Abstract

We present a comprehensive theoretical analysis of first-order methods for escaping strict saddle points in smooth non-convex optimization. Our main contribution is a Perturbed Saddle-escape Descent (PSD) algorithm with fully explicit constants and a rigorous separation between gradient-descent and saddle-escape phases. For a function $f:\mathbb{R}^d\to\mathbb{R}$ with $\ell$-Lipschitz gradient and $\rho$-Lipschitz Hessian, we prove that PSD finds an $(\epsilon,\sqrt{\rho\epsilon})$-approximate second-order stationary point with high probability using at most $O(\ell\Delta_f/\epsilon^2)$ gradient evaluations for the descent phase plus $O((\ell/\sqrt{\rho\epsilon})\log(d/\delta))$ evaluations per escape episode, with at most $O(\ell\Delta_f/\epsilon^2)$ episodes needed. We validate our theoretical predictions through extensive experiments across both synthetic functions and practical machine learning tasks, confirming the logarithmic dimension dependence and the predicted per-episode function decrease. We also provide complete algorithmic specifications including a finite-difference variant (PSD-Probe) and a stochastic extension (PSGD) with robust mini-batch sizing.

Ссылки и действия