Fast Convergence Rates for Subsampled Natural Gradient Algorithms on Quadratic Model Problems

2508.21022v1 cs.LG, math.OC, stat.ML 2025-08-29
Авторы:

Gil Goldshlager, Jiang Hu, Lin Lin

Резюме на русском

```## Контекст Субсемплированный естественный градиентный десцент (Subsampled Natural Gradient Descent, SNGD) является эффективным методом оптимизации, продемонстрировавшийся в задачах параметрической оптимизации в области статистической физики и глубокого обучения. Однако, недостаточно теоретических разъяснений для его поведения, особенно в случае идеализированных задач параметрической оптимизации. Задача SNGD состоит в том, чтобы оптимизировать функцию потерь, соответствующую параметрической модели, которая в свою очередь является линейной, а функция потерь — сильно вогнутой и квадратичной. Мы предлагаем новую теоретическую модель, которая объясняет эффективность SNGD в таких задачах. ## Метод Мы используем методы случайного линейного алгебры для анализа поведения SNGD в случае линейных моделей и квадратичных потерь. Основная идея заключается в том, что SNGD может быть рассмотрен как регуляризированный Kaczmarz метод, который имеет хорошо изученные свойства. В случае простой сильно вогнутой системы, мы показываем, что SNGD и SPRING (Accelerated Subsampled Natural Gradient Descent) могут быть связаны с методом градиентного спуска с регуляризатором. Это позволяет применить существующие результаты в теории случайного линейного алгебры для получения новых гарантий сходимости. ## Результаты Мы доказали, что SNGD имеет фаст-конвергенс-рейт в случае линейных моделей с квадратичными потерями. В частности, для стандартной задачи меньших квадратов с помощью Kaczmarz-метода получили примерной скорость сходимости. Наш исследовательский результат показал, что SNGD работает эффективно в задачах сильно вогнутых потерь. Мы также доказали, что SPRING может ускорять SNGD, и это является первым доказательством его ускоренного поведения. ## Значимость Наши результаты имеют значительное значение в области статистической физики и глубокого обучения. Мы показали, что SNGD может быть эффективно применен для оптимизации моделей в этих областях. Это позволяет получить простые и эффективные способы решать задачи параметрической оптимизации, в том числе в задачах физических моделей и нейронных сетей. ## Выводы Мы доказали новые гарантии сходимости для SNGD и SPRING в задачах сильно вогнутых потерь. Это демонстрирует значительный потенциал SNGD в параметрической оптимизации. Мы также отметили, что существуют теоретические ограничения на эффективность SNGD в широком классе задач. Будущие исследования будут сконцентрированы на расширении этих результатов к более общим моделям и задачам, а также на рассмотрении устойчивости SNGD в условиях дискретизации.```

Abstract

Subsampled natural gradient descent (SNGD) has shown impressive results for parametric optimization tasks in scientific machine learning, such as neural network wavefunctions and physics-informed neural networks, but it has lacked a theoretical explanation. We address this gap by analyzing the convergence of SNGD and its accelerated variant, SPRING, for idealized parametric optimization problems where the model is linear and the loss function is strongly convex and quadratic. In the special case of a least-squares loss, namely the standard linear least-squares problem, we prove that SNGD is equivalent to a regularized Kaczmarz method while SPRING is equivalent to an accelerated regularized Kaczmarz method. As a result, by leveraging existing analyses we obtain under mild conditions (i) the first fast convergence rate for SNGD, (ii) the first convergence guarantee for SPRING in any setting, and (iii) the first proof that SPRING can accelerate SNGD. In the case of a general strongly convex quadratic loss, we extend the analysis of the regularized Kaczmarz method to obtain a fast convergence rate for SNGD under stronger conditions, providing the first explanation for the effectiveness of SNGD outside of the least-squares setting. Overall, our results illustrate how tools from randomized linear algebra can shed new light on the interplay between subsampling and curvature-aware optimization strategies.

Ссылки и действия