Fast Convergence Rates for Subsampled Natural Gradient Algorithms on Quadratic Model Problems
2508.21022v1
cs.LG, math.OC, stat.ML
2025-08-29
Авторы:
Gil Goldshlager, Jiang Hu, Lin Lin
Резюме на русском
```## Контекст
Субсемплированный естественный градиентный десцент (Subsampled Natural Gradient Descent, SNGD) является эффективным методом оптимизации, продемонстрировавшийся в задачах параметрической оптимизации в области статистической физики и глубокого обучения. Однако, недостаточно теоретических разъяснений для его поведения, особенно в случае идеализированных задач параметрической оптимизации. Задача SNGD состоит в том, чтобы оптимизировать функцию потерь, соответствующую параметрической модели, которая в свою очередь является линейной, а функция потерь — сильно вогнутой и квадратичной. Мы предлагаем новую теоретическую модель, которая объясняет эффективность SNGD в таких задачах.
## Метод
Мы используем методы случайного линейного алгебры для анализа поведения SNGD в случае линейных моделей и квадратичных потерь. Основная идея заключается в том, что SNGD может быть рассмотрен как регуляризированный Kaczmarz метод, который имеет хорошо изученные свойства. В случае простой сильно вогнутой системы, мы показываем, что SNGD и SPRING (Accelerated Subsampled Natural Gradient Descent) могут быть связаны с методом градиентного спуска с регуляризатором. Это позволяет применить существующие результаты в теории случайного линейного алгебры для получения новых гарантий сходимости.
## Результаты
Мы доказали, что SNGD имеет фаст-конвергенс-рейт в случае линейных моделей с квадратичными потерями. В частности, для стандартной задачи меньших квадратов с помощью Kaczmarz-метода получили примерной скорость сходимости. Наш исследовательский результат показал, что SNGD работает эффективно в задачах сильно вогнутых потерь. Мы также доказали, что SPRING может ускорять SNGD, и это является первым доказательством его ускоренного поведения.
## Значимость
Наши результаты имеют значительное значение в области статистической физики и глубокого обучения. Мы показали, что SNGD может быть эффективно применен для оптимизации моделей в этих областях. Это позволяет получить простые и эффективные способы решать задачи параметрической оптимизации, в том числе в задачах физических моделей и нейронных сетей.
## Выводы
Мы доказали новые гарантии сходимости для SNGD и SPRING в задачах сильно вогнутых потерь. Это демонстрирует значительный потенциал SNGD в параметрической оптимизации. Мы также отметили, что существуют теоретические ограничения на эффективность SNGD в широком классе задач. Будущие исследования будут сконцентрированы на расширении этих результатов к более общим моделям и задачам, а также на рассмотрении устойчивости SNGD в условиях дискретизации.```
Abstract
Subsampled natural gradient descent (SNGD) has shown impressive results for
parametric optimization tasks in scientific machine learning, such as neural
network wavefunctions and physics-informed neural networks, but it has lacked a
theoretical explanation. We address this gap by analyzing the convergence of
SNGD and its accelerated variant, SPRING, for idealized parametric optimization
problems where the model is linear and the loss function is strongly convex and
quadratic. In the special case of a least-squares loss, namely the standard
linear least-squares problem, we prove that SNGD is equivalent to a regularized
Kaczmarz method while SPRING is equivalent to an accelerated regularized
Kaczmarz method. As a result, by leveraging existing analyses we obtain under
mild conditions (i) the first fast convergence rate for SNGD, (ii) the first
convergence guarantee for SPRING in any setting, and (iii) the first proof that
SPRING can accelerate SNGD. In the case of a general strongly convex quadratic
loss, we extend the analysis of the regularized Kaczmarz method to obtain a
fast convergence rate for SNGD under stronger conditions, providing the first
explanation for the effectiveness of SNGD outside of the least-squares setting.
Overall, our results illustrate how tools from randomized linear algebra can
shed new light on the interplay between subsampling and curvature-aware
optimization strategies.