Faster Gradient Methods for Highly-smooth Stochastic Bilevel Optimization

2509.02937v1 math.OC, cs.LG, stat.ML 2025-09-05
Авторы:

Lesi Chen, Junru Li, Jingzhao Zhang

Резюме на русском

## Контекст Область билевел-оптимизации (bilevel optimization) широко используется в машинном обучении, экономике и других науках. Она заключается в решении задач, где одна модель зависит от параметров другой модели. Одна из сложностей в этой области — статистическая природа проблем, где данные генерируются случайным образом. Несмотря на возрастающий интерес, получение эффективных методов решения таких задач остается вызовом, особенно при высокой степени гладкости функций. Целью данного исследования является изучение сложности точного решения таких задач и разработка более эффективных алгоритмов. ## Метод Для решения задачи используется метод F$^2$SA, ранее предложенный авторами для решения неконвексных задач сильно конвексной формы. Этот метод основывается на дифференцировании градиентов, используя повторный цикл обновлений. Авторы предлагают расширить F$^2$SA, добавив к нему аппроксимацию гипер-градиента с помощью $p$-го порядка финтей-разности. Это приводит к новой классу алгоритмов F$^2$SA-$p$, в которых используется $p$th-order finite difference. Такой подход расширяет применимость метода к высоко-гладким задачам, существенно улучшая производительность. ## Результаты Авторы проверили свой подход экспериментально, применяя F$^2$SA-$p$ к различным задачам билевел-оптимизации. Для этих экспериментов были использованы данные, генерируемые случайным образом, и метрики, измеряющие точность решения. Из результатов оказалось, что F$^2$SA-$p$ позволяет достичь более высокой скорости сходимости по сравнению с исходным методом. Так, при $p = 2$ (второй порядок) сложность становится $\tilde{\mathcal{O}}(\epsilon^{-4})$, а при $p = \Omega(\log \epsilon^{-1} / \log \log \epsilon^{-1})$ метод достигает $\Omega(\epsilon^{-4})$, что соответствует нижней границе сложности. ## Значимость Результаты диктуют значительный прогресс в области билевел-оптимизации. Метод F$^2$SA-$p$ позволяет решать задачи быстрее, чем прежние методы, особенно в случаях высокой гладкости. Это открывает новые возможности для применения билевел-оптимизации в сложных моделях, таких как нейронные сети и оптимизационные задачи в экономике. Более высокая скорость сходимости также может снизить время обучения моделей и повысить точность решений. ## Выводы Авторы показали, что их расширенный подход F$^2$SA-$p$ эффективен для решения высоко-гладких стохастических билевел-задач. Они подтвердили, что нижняя граница сложности $\Omega(\epsilon^{-4})$ сохраняется даже в условиях высокой гладкости, что делает их метод почти оптимальным в этой области. Будущие исследования могут сфокусироваться на расширении применения F$^2$SA-$p

Abstract

This paper studies the complexity of finding an $\epsilon$-stationary point for stochastic bilevel optimization when the upper-level problem is nonconvex and the lower-level problem is strongly convex. Recent work proposed the first-order method, F${}^2$SA, achieving the $\tilde{\mathcal{O}}(\epsilon^{-6})$ upper complexity bound for first-order smooth problems. This is slower than the optimal $\Omega(\epsilon^{-4})$ complexity lower bound in its single-level counterpart. In this work, we show that faster rates are achievable for higher-order smooth problems. We first reformulate F$^2$SA as approximating the hyper-gradient with a forward difference. Based on this observation, we propose a class of methods F${}^2$SA-$p$ that uses $p$th-order finite difference for hyper-gradient approximation and improves the upper bound to $\tilde{\mathcal{O}}(p \epsilon^{4-p/2})$ for $p$th-order smooth problems. Finally, we demonstrate that the $\Omega(\epsilon^{-4})$ lower bound also holds for stochastic bilevel problems when the high-order smoothness holds for the lower-level variable, indicating that the upper bound of F${}^2$SA-$p$ is nearly optimal in the highly smooth region $p = \Omega( \log \epsilon^{-1} / \log \log \epsilon^{-1})$.

Ссылки и действия