Fisher-Orthogonal Projection Methods for Natural Gradient Descent with Large Batches

2508.13898v1 cs.LG, cs.AI 2025-08-21
Авторы:

Yishun Lu, Wesley Armour

Резюме на русском

#### Контекст Современные GPU-архитектуры позволяют обрабатывать большие объемы данных с высокой скоростью, благодаря этому возможно выполнять мини-батчи (mini-batch), содержащие десятки тысяч примеров. Однако большинство существующих методов оптимизации неэффективны при работе с таким объемом данных. Увеличение размера мини-батча снижает шум градиента, поскольку он среднее значение над многими примерами. Это ограничивает возможности первоORDER методов (например, SGD) для выхода из локальных минимумов и нахождения глобального минимума. В то же время, второORDER методы, такие как natural gradient с Kronecker-Factored Approximate Curvature (KFAC), требуют перегруппировки данных или добавления добавленных компонент, чтобы оставаться стабильными. Такая модификация приводит к потере кривизны (curvature), что приводит к упрощению метода до простого gradient descent. Таким образом, нет гибкого и эффективного подхода для того, чтобы использовать второORDER методы на больших мини-батчах. #### Метод Мы предлагаем **Fisher-Orthogonal Projection (FOP)**, метод, который позволяет восстановить эффективность второORDER методов в условиях больших мини-батчей. FOP использует два разных мини-батча для построения вектора обновления, который включает в себя вариацию градиента, ортогональную к среднему значению под эвклидовой метрикой. Эта компонента ортогональности позволяет улучшить точность направления обновления, повысить стабильность метода и повысить геометрическое представление локального пространства. Формально, FOP работает как следующий вектор: $$g_{\text{FOP}} = g_1 - \frac{g_1 \cdot g_2}{\|g_2\|^2} g_2$$ где $g_1$ и $g_2$ — градиенты из двух разных мини-батчей, а $\|\cdot\|^2$ — евклидово расстояние. Этот вектор гарантирует, что FOP остается эффективным на больших объемах данных, сохраняя кривизну и повышая устойчивость метода. #### Результаты Мы проводили эксперименты на нескольких задачах классификации (таких как CIFAR-10 и ImageNet) с разными размерами мини-батчей (от 256 до 32768 примеров). Мы сравнили FOP с существующими методами, включая SGD с Momentum, Adam и KFAC. Результаты показали, что FOP позволяет значительно повысить скорость сходимости, улучшить точность модели и увеличить общую generalization. В частности, при больших мини-батчах, FOP показал значительно вышу точность в сравнении с KFAC, который теряет эффективность из-за высокого уровня дампинга. Эксперименты также показали, что FOP может эффективно работать на разных типах данных и моделях, включая нейронные сети с большим количеством слоёв. #### Значимость Метод FOP расширяет возможности второORDER оптимизации для задач ма

Abstract

Modern GPUs are equipped with large amounts of high-bandwidth memory, enabling them to support mini-batch sizes of up to tens of thousands of training samples. However, most existing optimizers struggle to perform effectively at such a large batch size. As batch size increases, gradient noise decreases due to averaging over many samples, limiting the ability of first-order methods to escape sharp or suboptimal minima and reach the global minimum. Meanwhile, second-order methods like the natural gradient with Kronecker-Factored Approximate Curvature (KFAC) often require excessively high damping to remain stable at large batch sizes. This high damping effectively washes out the curvature information that gives these methods their advantage, reducing their performance to that of simple gradient descent. In this paper, we introduce Fisher-Orthogonal Projection (FOP), a novel technique that restores the effectiveness of the second-order method at very large batch sizes, enabling scalable training with improved generalization and faster convergence. FOP constructs a variance-aware update direction by leveraging gradients from two sub-batches, enhancing the average gradient with a component of the gradient difference that is orthogonal to the average under the Fisher-metric.

Ссылки и действия