Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws

2508.03688v1 stat.ML, cs.LG 2025-08-09

Авторы:

Gérard Ben Arous, Murat A. Erdogdu, N. Mert Vural, Denny Wu

Резюме на русском

## Контекст Обучение нейронных сетей в высокомерном пространстве представляет собой ключевую проблему в машинном обучении, так как этот подход позволяет решать задачи, требующие высокого уровня абстракции и сложности. Однако существуют значительные недостатки, связанные с точностью и скоростью обучения в высокомерном режиме, что приводит к высокому потреблению ресурсов и ограниченной эффективности моделей. Этот рабочий рынок сильно востребован широким кругом специалистов, включая ученых из области машинного обучения, аппликационных математиков и экономистов, которые испытывают сложности в обработке высокомерных данных. Мотивацией для этого исследования является необходимость развития более точных и эффективных методов обучения нейронных сетей в высокомерном режиме, чтобы улучшить процессы принятия решений и ускорить предсказания. ## Метод В работе предлагается методика, основанная на обучении квадратичных нейронных сетей в высокомерном пространстве с использованием градиентного спуска (SGD). Метод использует теорию матричных Riccati-уравнений и матричных монотонных аргументов для точного анализа динамики обучения. Эта модель рассматривается в режиме прекрасной ширины ("extensive-width regime"), когда число сигнальных направлений $r \asymp d^\beta$, где $d$ — размерность данных, а $\beta \in [0, 1)$. Для коэффициентов второго слоя $\lambda_j$ применяется сильно сгусточная модель, принимающая вид $j^{-\alpha}$, где $\alpha \geq 0$. Основные технические инструменты включают теорию многомерных дифференциальных уравнений и анализ конечных выборок для синтетических и реальных данных. ## Результаты Исследование демонстрирует, что SGD динамика обучения квадратичных нейронных сетей в высокомерном режиме обладает явными зависимостями от параметров $d$, $r$ и $\alpha$. Наблюдается появление спектральных характеристик, связанных с темпами увеличения модели и числа выборок, что позволяет описать существующие законы масштабирования (scaling laws). Для оценки полученных результатов использовался большой набор данных, включающий как синтетические, так и реальные данные. Эксперименты показали, что модель обладает высокой точностью и скоростью обучения в высокомерном пространстве, что существенно превосходит классические методы. ## Значимость Предложенный подход имеет широкие применения в различных областях, включая здравоохранение, финансы, анализ массовых данных и ИИ. Он обеспечивает более быстрое и точное обучение моделей, уменьшает потребление ресурсов и позволяет значительно улучшить качество предсказаний. Преимущества метода заключаются в увеличении точности, эффективности и потенциаль

Abstract

We study the optimization and sample complexity of gradient-based training of a two-layer neural network with quadratic activation function in the high-dimensional regime, where the data is generated as $y \propto \sum_{j=1}^{r}\lambda_j \sigma\left(\langle \boldsymbol{\theta_j}, \boldsymbol{x}\rangle\right), \boldsymbol{x} \sim N(0,\boldsymbol{I}_d)$, $\sigma$ is the 2nd Hermite polynomial, and $\lbrace\boldsymbol{\theta}_j \rbrace_{j=1}^{r} \subset \mathbb{R}^d$ are orthonormal signal directions. We consider the extensive-width regime $r \asymp d^\beta$ for $\beta \in [0, 1)$, and assume a power-law decay on the (non-negative) second-layer coefficients $\lambda_j\asymp j^{-\alpha}$ for $\alpha \geq 0$. We present a sharp analysis of the SGD dynamics in the feature learning regime, for both the population limit and the finite-sample (online) discretization, and derive scaling laws for the prediction risk that highlight the power-law dependencies on the optimization time, sample size, and model width. Our analysis combines a precise characterization of the associated matrix Riccati differential equation with novel matrix monotonicity arguments to establish convergence guarantees for the infinite-dimensional effective dynamics.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Comparison of neural network training strategies for the simulation of dynamical...

Informative missingness and its implications in semi-supervised learning

Recurrent Neural Networks with Linear Structures for Electricity Price Forecasti...

Control Consistency Losses for Diffusion Bridges

Foundations of Diffusion Models in General State Spaces: A Self-Contained Introd...

Навигация