Scaling Laws and Spectra of Shallow Neural Networks in the Feature Learning Regime

2509.24882v1 cs.LG, cond-mat.dis-nn, cs.AI, stat.ML 2025-10-01
Авторы:

Leonardo Defilippis, Yizhou Xu, Julius Girardin, Emanuele Troiani, Vittorio Erba, Lenka Zdeborová, Bruno Loureiro, Florent Krzakala

Резюме на русском

## Контекст Широко известны скалирующие закономерности в глубоком обучении, которые отвечают за прогресс в этой области. Однако их теоретическое понимание ограничивается линейными моделями. Многие из этих закономерностей могут быть расширены на квадратичные и диагональные нейронные сети, которые играют ключевую роль в обучении признаков. Однако теоретическое доказательство этих закономерностей в этой области остается недостаточно. Это создает мотивацию для исследований, направленных на расширение теоретического понимания этих закономерностей на более сложные нейронные сети. ## Метод Исследование основывается на анализе квадратичных и диагональных нейронных сетей в режиме обучения признаков. Основные методы включают анализ связей с матричным сжатием и LASSO, а также исследование фазовых диаграмм для скалирующих закономерностей. Технические решения включают современные методы регуляризации и анализ распределения весов в сетях. Архитектура исследования основывается на теоретических моделях, позволяющих проанализировать спектральные свойства весов и их связь с общей походкой сети. ## Результаты В ходе исследования было получено подробное фазовое диаграмма для скалирующих закономерностей, описывающих эксцесс риска в зависимости от объема данных и регуляризации. Были установлены три основных режима: вырожденный, платовый и линейный. Также была установлена связь между этими режимами и спектральными свойствами весов. Эта связь была подробно описана, что позволило провести теоретическую характеристику спектра весов в различных режимах. Эти теоретические результаты подтверждают существующие эмпирические наблюдения регулярной структуры спектра весов и ее влияние на общую походку сети. ## Значимость Исследование имеет практическую значимость для понимания роли спектра весов в обучении нейронных сетей. Оно позволяет получить новые взгляды на технологии функционирования нейросетей, проясняя регулярность обучения и получения новых признаков. Возможности применения включают улучшение методов обучения признаков, построения более эффективных нейронных сетей и понимание ограничений систем. Направления будущих исследований включают расширение моделей на более сложные сети и исследование сильно вырожденных случаев. ## Выводы Результаты этого исследования обобщают скалирующие закономерности глубоких нейронных сетей на квадратичные и диагональные модели. Они позволяют понять, как спектр весов влияет на общую походку и обобщающую способность сети. На основе этих результатов могут быть

Abstract

Neural scaling laws underlie many of the recent advances in deep learning, yet their theoretical understanding remains largely confined to linear models. In this work, we present a systematic analysis of scaling laws for quadratic and diagonal neural networks in the feature learning regime. Leveraging connections with matrix compressed sensing and LASSO, we derive a detailed phase diagram for the scaling exponents of the excess risk as a function of sample complexity and weight decay. This analysis uncovers crossovers between distinct scaling regimes and plateau behaviors, mirroring phenomena widely reported in the empirical neural scaling literature. Furthermore, we establish a precise link between these regimes and the spectral properties of the trained network weights, which we characterize in detail. As a consequence, we provide a theoretical validation of recent empirical observations connecting the emergence of power-law tails in the weight spectrum with network generalization performance, yielding an interpretation from first principles.

Ссылки и действия