Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws
2508.03688v1
stat.ML, cs.LG
2025-08-09
Авторы:
Gérard Ben Arous, Murat A. Erdogdu, N. Mert Vural, Denny Wu
Резюме на русском
## Контекст
Обучение нейронных сетей в высокомерном пространстве представляет собой ключевую проблему в машинном обучении, так как этот подход позволяет решать задачи, требующие высокого уровня абстракции и сложности. Однако существуют значительные недостатки, связанные с точностью и скоростью обучения в высокомерном режиме, что приводит к высокому потреблению ресурсов и ограниченной эффективности моделей. Этот рабочий рынок сильно востребован широким кругом специалистов, включая ученых из области машинного обучения, аппликационных математиков и экономистов, которые испытывают сложности в обработке высокомерных данных. Мотивацией для этого исследования является необходимость развития более точных и эффективных методов обучения нейронных сетей в высокомерном режиме, чтобы улучшить процессы принятия решений и ускорить предсказания.
## Метод
В работе предлагается методика, основанная на обучении квадратичных нейронных сетей в высокомерном пространстве с использованием градиентного спуска (SGD). Метод использует теорию матричных Riccati-уравнений и матричных монотонных аргументов для точного анализа динамики обучения. Эта модель рассматривается в режиме прекрасной ширины ("extensive-width regime"), когда число сигнальных направлений $r \asymp d^\beta$, где $d$ — размерность данных, а $\beta \in [0, 1)$. Для коэффициентов второго слоя $\lambda_j$ применяется сильно сгусточная модель, принимающая вид $j^{-\alpha}$, где $\alpha \geq 0$. Основные технические инструменты включают теорию многомерных дифференциальных уравнений и анализ конечных выборок для синтетических и реальных данных.
## Результаты
Исследование демонстрирует, что SGD динамика обучения квадратичных нейронных сетей в высокомерном режиме обладает явными зависимостями от параметров $d$, $r$ и $\alpha$. Наблюдается появление спектральных характеристик, связанных с темпами увеличения модели и числа выборок, что позволяет описать существующие законы масштабирования (scaling laws). Для оценки полученных результатов использовался большой набор данных, включающий как синтетические, так и реальные данные. Эксперименты показали, что модель обладает высокой точностью и скоростью обучения в высокомерном пространстве, что существенно превосходит классические методы.
## Значимость
Предложенный подход имеет широкие применения в различных областях, включая здравоохранение, финансы, анализ массовых данных и ИИ. Он обеспечивает более быстрое и точное обучение моделей, уменьшает потребление ресурсов и позволяет значительно улучшить качество предсказаний. Преимущества метода заключаются в увеличении точности, эффективности и потенциаль
Abstract
We study the optimization and sample complexity of gradient-based training of
a two-layer neural network with quadratic activation function in the
high-dimensional regime, where the data is generated as $y \propto
\sum_{j=1}^{r}\lambda_j \sigma\left(\langle \boldsymbol{\theta_j},
\boldsymbol{x}\rangle\right), \boldsymbol{x} \sim N(0,\boldsymbol{I}_d)$,
$\sigma$ is the 2nd Hermite polynomial, and $\lbrace\boldsymbol{\theta}_j
\rbrace_{j=1}^{r} \subset \mathbb{R}^d$ are orthonormal signal directions. We
consider the extensive-width regime $r \asymp d^\beta$ for $\beta \in [0, 1)$,
and assume a power-law decay on the (non-negative) second-layer coefficients
$\lambda_j\asymp j^{-\alpha}$ for $\alpha \geq 0$. We present a sharp analysis
of the SGD dynamics in the feature learning regime, for both the population
limit and the finite-sample (online) discretization, and derive scaling laws
for the prediction risk that highlight the power-law dependencies on the
optimization time, sample size, and model width. Our analysis combines a
precise characterization of the associated matrix Riccati differential equation
with novel matrix monotonicity arguments to establish convergence guarantees
for the infinite-dimensional effective dynamics.
Ссылки и действия
Дополнительные ресурсы: