Diagonal Linear Networks and the Lasso Regularization Path
2509.18766v1
cs.LG, math.OC, stat.ML, 62J07, 68T07, G.3
2025-09-25
Авторы:
Raphaël Berthier
Резюме на русском
## Контекст
Область исследования связана с теорией обучения нейронных сетей, в частности диагональных линейных сетей. Эти сети представляют собой нейронные сети с линейными активациями и диагональными весовыми матрицами. Известно, что их теоретический анализ достаточно хорошо развит, в частности, известно, что при малой инициализации их оптимизационный процесс приводит к линейному предсказателю с минимальной 1-нормой среди минимизаторов функции потерь. Данное исследование стремится к углубленному анализу характера этого поведения, в частности, целью является установить связь между тренировочной траекторией диагональных линейных сетей и регуляризационной траекторией LASSO (Least Absolute Shrinkage and Selection Operator). Эта связь может быть полезна для понимания и моделирования оптимизационных процессов в нейронных сетях.
## Метод
Методология исследования основывается на анализе гомотопических связей между обучающей траекторией диагональных линейных сетей и регуляризационной траекторией LASSO. Для этого воспользованысь теоремами геометрии оптимальных решений и анализом локальных поведений тренировочных процессов. Особое внимание уделяется анализу тренировочной траектории в зависимости от инициализационных параметров и регуляризационных параметров (в частности, времени тренировки). Архитектура исследуемых сетей определяется заданным количеством слоёв, диагональными матрицами весов и линейной активацией. Также включены симуляции для проверки теоретических выводов.
## Результаты
Эксперименты показали, что тренировочная траектория диагональных линейных сетей может быть эквивалентна регуляризационной траектории LASSO при условии монотонности последней. В случае немотонности, получены аппроксимативные результаты, подтверждающие близость траекторий. Во время обучения веса диагональных сетей меняются таким образом, чтобы минимизировать отклонение от линейного предсказателя с минимальной 1-нормой. Данные эксперименты подтвердили теоретические предположения, показав четкую зависимость между временем обучения и регуляризационным параметром LASSO.
## Значимость
Результаты имеют значительное значение для теоретического понимания нейронных сетей и их регуляризационных процессов. Эта связь даёт возможность переносить знания и методы регуляризации LASSO на другие модели, такие как нейронные сети с диагональными матрицами. Будущие исследования могут быть направлены на расширение этой модели на более сложные сети, такие как нелинейные, и на изучение других регуляризаторов.
## Выводы
В ходе исследования была у
Abstract
Diagonal linear networks are neural networks with linear activation and
diagonal weight matrices. Their theoretical interest is that their implicit
regularization can be rigorously analyzed: from a small initialization, the
training of diagonal linear networks converges to the linear predictor with
minimal 1-norm among minimizers of the training loss. In this paper, we deepen
this analysis showing that the full training trajectory of diagonal linear
networks is closely related to the lasso regularization path. In this
connection, the training time plays the role of an inverse regularization
parameter. Both rigorous results and simulations are provided to illustrate
this conclusion. Under a monotonicity assumption on the lasso regularization
path, the connection is exact while in the general case, we show an approximate
connection.