📊 Статистика дайджестов
Всего дайджестов: 34123 Добавлено сегодня: 101
Последнее обновление: сегодня
Авторы:
Arthur Pellegrino, Angus Chadwick
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Analysing how neural networks represent data features in their activations can help interpret how they perform tasks. Hence, a long line of work has focused on mathematically characterising the geometry of such "neural representations." In parallel, machine learning has seen a surge of interest in understanding how dynamical systems perform computations on time-varying input data. Yet, the link between computation-through-dynamics and representational geometry remains poorly understood. Here, we...
Авторы:
Govind Menon, Tianmin Yu
## Контекст
Обучение нейронных сетей с глубокими архитектурами является задачей ключевой во многих областях, включая обработку естественного языка, обработку изображений и распознавание речи. Однако во время обучения моделей наблюдается сильная нестабильность, которая может быть связана с огромным числом параметров и ограниченным количеством данных для обучения. Эта проблема хорошо изучена в линейных нейронных сетях, но менее четко понятна в случае глубоких нейронных сетей. Данное исследование вводит понятие "глубокой линейной сети" (Deep Linear Network, DLN) и исследует её геометрию, чтобы дать фундамент для термодинамического описания обучения нейронных сетей. Основной мотивацией является создание модели, которая может объяснить и упростить понимание процесса обучения в DLN.
## Метод
Исследование основывается на римановой геометрии и групповых действий. Авторы используют подход, основанный на группах, для анализа переобозначения (overparametrization) в DLN. Основной технический шаг — конструкция ортонормированного базиса для тангенсного пространства балансированного многообразия (balanced manifold) с помощью теории Якоби-матриц. Архитектура исследования включает использование Riemannian submersion для перехода от пространства параметров к пространству обобщенных параметров. Модель также использует концепт Больцмановского энтропии, определяемого через листья многообразия в пространстве параметров.
## Результаты
Авторы вводят формулу для Больцмановской энтропии в DLN, которая лежит в основе термодинамической модели обучения. Также они показывают, что Riemannian geometry, определенная на пространстве обобщенных параметров, может быть получена через Riemannian submersion из балансированного многообразия. Экспериментальные результаты показывают, что использование такого подхода позволяет получить более точные прогнозы и улучшить понимание процесса обучения в DLN.
## Значимость
Модель DLN и её геометрия могут быть применены в различных областях, таких как машинное обучение, анализ данных и физическое моделирование. Основное преимущество метода заключается в том, что он обеспечивает новый взгляд на процесс обучения в глубоких нейронных сетях, упрощая понимание и улучшая стабильность. Потенциальное влияние заключается в том, что данный подход может помочь в решении проблемы переобучения и нестабильности в DLN, что в свою очередь может привести к более эффективным моделям и более точным результатам.
## Выводы
В ходе исследования была предложена формула для Больцмановской энтропии в DLN, которая может стать основой для термодинамической модели обучения. Так
Annotation:
We study the Riemannian geometry of the Deep Linear Network (DLN) as a
foundation for a thermodynamic description of the learning process. The main
tools are the use of group actions to analyze overparametrization and the use
of Riemannian submersion from the space of parameters to the space of
observables. The foliation of the balanced manifold in the parameter space by
group orbits is used to define and compute a Boltzmann entropy. We also show
that the Riemannian geometry on the space of obse...