Diagonal Linear Networks and the Lasso Regularization Path

2509.18766v1 cs.LG, math.OC, stat.ML, 62J07, 68T07, G.3 2025-09-25

Авторы:

Raphaël Berthier

Резюме на русском

## Контекст Область исследования связана с теорией обучения нейронных сетей, в частности диагональных линейных сетей. Эти сети представляют собой нейронные сети с линейными активациями и диагональными весовыми матрицами. Известно, что их теоретический анализ достаточно хорошо развит, в частности, известно, что при малой инициализации их оптимизационный процесс приводит к линейному предсказателю с минимальной 1-нормой среди минимизаторов функции потерь. Данное исследование стремится к углубленному анализу характера этого поведения, в частности, целью является установить связь между тренировочной траекторией диагональных линейных сетей и регуляризационной траекторией LASSO (Least Absolute Shrinkage and Selection Operator). Эта связь может быть полезна для понимания и моделирования оптимизационных процессов в нейронных сетях. ## Метод Методология исследования основывается на анализе гомотопических связей между обучающей траекторией диагональных линейных сетей и регуляризационной траекторией LASSO. Для этого воспользованысь теоремами геометрии оптимальных решений и анализом локальных поведений тренировочных процессов. Особое внимание уделяется анализу тренировочной траектории в зависимости от инициализационных параметров и регуляризационных параметров (в частности, времени тренировки). Архитектура исследуемых сетей определяется заданным количеством слоёв, диагональными матрицами весов и линейной активацией. Также включены симуляции для проверки теоретических выводов. ## Результаты Эксперименты показали, что тренировочная траектория диагональных линейных сетей может быть эквивалентна регуляризационной траектории LASSO при условии монотонности последней. В случае немотонности, получены аппроксимативные результаты, подтверждающие близость траекторий. Во время обучения веса диагональных сетей меняются таким образом, чтобы минимизировать отклонение от линейного предсказателя с минимальной 1-нормой. Данные эксперименты подтвердили теоретические предположения, показав четкую зависимость между временем обучения и регуляризационным параметром LASSO. ## Значимость Результаты имеют значительное значение для теоретического понимания нейронных сетей и их регуляризационных процессов. Эта связь даёт возможность переносить знания и методы регуляризации LASSO на другие модели, такие как нейронные сети с диагональными матрицами. Будущие исследования могут быть направлены на расширение этой модели на более сложные сети, такие как нелинейные, и на изучение других регуляризаторов. ## Выводы В ходе исследования была у

Abstract

Diagonal linear networks are neural networks with linear activation and diagonal weight matrices. Their theoretical interest is that their implicit regularization can be rigorously analyzed: from a small initialization, the training of diagonal linear networks converges to the linear predictor with minimal 1-norm among minimizers of the training loss. In this paper, we deepen this analysis showing that the full training trajectory of diagonal linear networks is closely related to the lasso regularization path. In this connection, the training time plays the role of an inverse regularization parameter. Both rigorous results and simulations are provided to illustrate this conclusion. Under a monotonicity assumption on the lasso regularization path, the connection is exact while in the general case, we show an approximate connection.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация