📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня
Авторы:

Leonardo Defilippis, Yizhou Xu, Julius Girardin, Emanuele Troiani, Vittorio Erba, Lenka Zdeborová, Bruno Loureiro, Florent Krzakala

## Контекст Широко известны скалирующие закономерности в глубоком обучении, которые отвечают за прогресс в этой области. Однако их теоретическое понимание ограничивается линейными моделями. Многие из этих закономерностей могут быть расширены на квадратичные и диагональные нейронные сети, которые играют ключевую роль в обучении признаков. Однако теоретическое доказательство этих закономерностей в этой области остается недостаточно. Это создает мотивацию для исследований, направленных на расширение теоретического понимания этих закономерностей на более сложные нейронные сети. ## Метод Исследование основывается на анализе квадратичных и диагональных нейронных сетей в режиме обучения признаков. Основные методы включают анализ связей с матричным сжатием и LASSO, а также исследование фазовых диаграмм для скалирующих закономерностей. Технические решения включают современные методы регуляризации и анализ распределения весов в сетях. Архитектура исследования основывается на теоретических моделях, позволяющих проанализировать спектральные свойства весов и их связь с общей походкой сети. ## Результаты В ходе исследования было получено подробное фазовое диаграмма для скалирующих закономерностей, описывающих эксцесс риска в зависимости от объема данных и регуляризации. Были установлены три основных режима: вырожденный, платовый и линейный. Также была установлена связь между этими режимами и спектральными свойствами весов. Эта связь была подробно описана, что позволило провести теоретическую характеристику спектра весов в различных режимах. Эти теоретические результаты подтверждают существующие эмпирические наблюдения регулярной структуры спектра весов и ее влияние на общую походку сети. ## Значимость Исследование имеет практическую значимость для понимания роли спектра весов в обучении нейронных сетей. Оно позволяет получить новые взгляды на технологии функционирования нейросетей, проясняя регулярность обучения и получения новых признаков. Возможности применения включают улучшение методов обучения признаков, построения более эффективных нейронных сетей и понимание ограничений систем. Направления будущих исследований включают расширение моделей на более сложные сети и исследование сильно вырожденных случаев. ## Выводы Результаты этого исследования обобщают скалирующие закономерности глубоких нейронных сетей на квадратичные и диагональные модели. Они позволяют понять, как спектр весов влияет на общую походку и обобщающую способность сети. На основе этих результатов могут быть
Annotation:
Neural scaling laws underlie many of the recent advances in deep learning, yet their theoretical understanding remains largely confined to linear models. In this work, we present a systematic analysis of scaling laws for quadratic and diagonal neural networks in the feature learning regime. Leveraging connections with matrix compressed sensing and LASSO, we derive a detailed phase diagram for the scaling exponents of the excess risk as a function of sample complexity and weight decay. This analy...
ID: 2509.24882v1 cs.LG, cond-mat.dis-nn, cs.AI, stat.ML