Optimal Condition for Initialization Variance in Deep Neural Networks: An SGD Dynamics Perspective

2508.12834v1 stat.ML, cs.LG 2025-08-20
Авторы:

Hiroshi Horii, Sothea Has

Резюме на русском

## Контекст Машинное обучение (ML) широко используется в различных областях, от обработки естественного языка до анализа изображений. Одним из ключевых аспектов ML является эффективное обучение нейронных сетей (DNNs), которое зависит от правильного выбора параметров, таких как слои, нейроны, и их инициализация. Несмотря на то, что существуют множество методов инициализации (например, He-normal и Xavier), наличие четкого математического канона для выбора их параметров не очевидно. Эта проблема особенно важна для DNNs, где неправильная инициализация может привести к плохому обучению и неоптимальным результатам. Целью данного исследования является разработка математического подхода для оптимального выбора инициализационной дисперсии в SGD-динамике DNNs. ## Метод Мы приближаем SGD к непрерывному времени с использованием Fokker-Planck-аппроксимации. Это позволяет изучить динамику инициализационного распределения через Kullback-Leibler (KL)-дивергенцию. Используя данную динамику, мы вычисляем ожидаемую функцию потерь в зависимости от инициализационного распределения. Этот подход применяется к DNNs, и мы получаем выражение для ожидаемой потери в зависимости от параметра дисперсии инициализации. Затем, минимизируя это выражение, мы получаем оптимальное значение дисперсии инициализации в классическом случае нормального распределения. Этот подход предоставляет новый способ выбора дисперсии инициализации, основанный на математических выкладках, а не на гипотезах. ## Результаты Мы проводим эксперименты с использованием SGD для обучения DNNs на двух классических датасетах: MNIST и Fashion-MNIST. Мы сравниваем результаты с классическим методом инициализации He-normal. Наши результаты показывают, что если дисперсия инициализации соответствует нашему оптимальному условию, то DNN-модели достигают ниже показателей финальной потери и выше показателей тестовой точности по сравнению с He-normal. Это подтверждает, что наш метод оптимального условия инициализации дает значительные выгоды по сравнению с существующими методами. ## Значимость Результаты этого исследования могут быть применены в различных ML-приложениях, где необходимо оптимизировать инициализацию DNNs. Этот подход обеспечивает четкий математический канон для выбора дисперсии инициализации, что повышает надежность и эффективность обучения DNNs. Кроме того, наш подход может быть расширен для других типов DNNs и оптимизационных методов, что дает потенциальный повод для будущих исследований в этой области. ## Выводы Мы разработали математическую модель для выбора оптимальной дисперсии инициализации в SGD-динамике DNNs. Наши теоретические ре

Abstract

Stochastic gradient descent (SGD), one of the most fundamental optimization algorithms in machine learning (ML), can be recast through a continuous-time approximation as a Fokker-Planck equation for Langevin dynamics, a viewpoint that has motivated many theoretical studies. Within this framework, we study the relationship between the quasi-stationary distribution derived from this equation and the initial distribution through the Kullback-Leibler (KL) divergence. As the quasi-steady-state distribution depends on the expected cost function, the KL divergence eventually reveals the connection between the expected cost function and the initialization distribution. By applying this to deep neural network models (DNNs), we can express the bounds of the expected loss function explicitly in terms of the initialization parameters. Then, by minimizing this bound, we obtain an optimal condition of the initialization variance in the Gaussian case. This result provides a concrete mathematical criterion, rather than a heuristic approach, to select the scale of weight initialization in DNNs. In addition, we experimentally confirm our theoretical results by using the classical SGD to train fully connected neural networks on the MNIST and Fashion-MNIST datasets. The result shows that if the variance of the initialization distribution satisfies our theoretical optimal condition, then the corresponding DNN model always achieves lower final training loss and higher test accuracy than the conventional He-normal initialization. Our work thus supplies a mathematically grounded indicator that guides the choice of initialization variance and clarifies its physical meaning of the dynamics of parameters in DNNs.

Ссылки и действия