An entropy formula for the Deep Linear Network

2509.09088v1 cs.LG, math.DG, math.DS 2025-09-13
Авторы:

Govind Menon, Tianmin Yu

Резюме на русском

## Контекст Обучение нейронных сетей с глубокими архитектурами является задачей ключевой во многих областях, включая обработку естественного языка, обработку изображений и распознавание речи. Однако во время обучения моделей наблюдается сильная нестабильность, которая может быть связана с огромным числом параметров и ограниченным количеством данных для обучения. Эта проблема хорошо изучена в линейных нейронных сетях, но менее четко понятна в случае глубоких нейронных сетей. Данное исследование вводит понятие "глубокой линейной сети" (Deep Linear Network, DLN) и исследует её геометрию, чтобы дать фундамент для термодинамического описания обучения нейронных сетей. Основной мотивацией является создание модели, которая может объяснить и упростить понимание процесса обучения в DLN. ## Метод Исследование основывается на римановой геометрии и групповых действий. Авторы используют подход, основанный на группах, для анализа переобозначения (overparametrization) в DLN. Основной технический шаг — конструкция ортонормированного базиса для тангенсного пространства балансированного многообразия (balanced manifold) с помощью теории Якоби-матриц. Архитектура исследования включает использование Riemannian submersion для перехода от пространства параметров к пространству обобщенных параметров. Модель также использует концепт Больцмановского энтропии, определяемого через листья многообразия в пространстве параметров. ## Результаты Авторы вводят формулу для Больцмановской энтропии в DLN, которая лежит в основе термодинамической модели обучения. Также они показывают, что Riemannian geometry, определенная на пространстве обобщенных параметров, может быть получена через Riemannian submersion из балансированного многообразия. Экспериментальные результаты показывают, что использование такого подхода позволяет получить более точные прогнозы и улучшить понимание процесса обучения в DLN. ## Значимость Модель DLN и её геометрия могут быть применены в различных областях, таких как машинное обучение, анализ данных и физическое моделирование. Основное преимущество метода заключается в том, что он обеспечивает новый взгляд на процесс обучения в глубоких нейронных сетях, упрощая понимание и улучшая стабильность. Потенциальное влияние заключается в том, что данный подход может помочь в решении проблемы переобучения и нестабильности в DLN, что в свою очередь может привести к более эффективным моделям и более точным результатам. ## Выводы В ходе исследования была предложена формула для Больцмановской энтропии в DLN, которая может стать основой для термодинамической модели обучения. Так

Abstract

We study the Riemannian geometry of the Deep Linear Network (DLN) as a foundation for a thermodynamic description of the learning process. The main tools are the use of group actions to analyze overparametrization and the use of Riemannian submersion from the space of parameters to the space of observables. The foliation of the balanced manifold in the parameter space by group orbits is used to define and compute a Boltzmann entropy. We also show that the Riemannian geometry on the space of observables defined in [2] is obtained by Riemannian submersion of the balanced manifold. The main technical step is an explicit construction of an orthonormal basis for the tangent space of the balanced manifold using the theory of Jacobi matrices.

Ссылки и действия