Learning Neural Networks by Neuron Pursuit

2509.12154v1 cs.LG, math.OC, stat.ML 2025-09-17

Авторы:

Akshay Kumar, Jarvis Haupt

Резюме на русском

## Контекст Область исследования связана с обучением нейронных сетей, конкретно с теоретическим анализом и новыми алгоритмами для эффективного обучения. Одной из существующих проблем является неэффективность существующих методов набора и настройки параметров нейронных сетей. Эти проблемы мотивируют разработку новых алгоритмов, которые могут динамически адаптироваться к изменениям данных и структуры сети. Такая мотивация вдохновила разработку алгоритма Neuron Pursuit (NP), который использует жадный подход с целью улучшения эффективности обучения. Это решение целесообразно в свете роста объемов данных и сложности моделей в современном машинном обучении. ## Метод Методология разработки Neuron Pursuit (NP) основывается на жадном подходе, который осуществляет последовательный выбор и добавление нейронов с оптимальными весами. Алгоритм работает в два этапа: 1) расширение сети путем добавления новых нейронов с помощью градиентного поиска, и 2) минимизация обучающей функции потерь с использованием нового набора нейронов. Технический подход включает использование градиентного потока для определения направлений добавления нейронов, а также методы градиентного спуска для оптимизации функции потерь после расширения сети. Эта архитектура обеспечивает простоту и эффективность алгоритма. ## Результаты В ходе экспериментов был проведен анализ градиентного потока для разных нейронных сетей, особое внимание было уделено тому, как он ведет себя при близости к специальным градиентным точкам. Были проведены исследования на реальных данных, показавшие, что алгоритм NP демонстрирует улучшение в скорости обучения и качестве предсказаний по сравнению с другими методами. Также был проанализирован поведение сетей после выхода из локальных минимумов, что подтвердило подход NP к эффективному обучению. ## Значимость NP может применяться в различных областях, таких как классификация изображений, текстовый анализ, и другие задачи машинного обучения. Одним из преимуществ является эффективность обучения на больших данных, а также улучшение точности решения задач. Этот подход имеет потенциал для повышения эффективности обучения нейронных сетей в сложных задачах, где требуется большая точность и скорость обучения. ## Выводы Основным достижением является успешное применение жадного подхода для эффективного обучения нейронных сетей. Будущие исследования будут сконцентрированы на расширении этого подхода для работы с более сложными моделями и данными, а также на изучении взаимосвязи между градиентными точками и динамикой обучения. Это может привести к дальнейшим улучшениям алгори

Abstract

The first part of this paper studies the evolution of gradient flow for homogeneous neural networks near a class of saddle points exhibiting a sparsity structure. The choice of these saddle points is motivated from previous works on homogeneous networks, which identified the first saddle point encountered by gradient flow after escaping the origin. It is shown here that, when initialized sufficiently close to such saddle points, gradient flow remains near the saddle point for a sufficiently long time, during which the set of weights with small norm remain small but converge in direction. Furthermore, important empirical observations are made on the behavior of gradient descent after escaping these saddle points. The second part of the paper, motivated by these results, introduces a greedy algorithm to train deep neural networks called Neuron Pursuit (NP). It is an iterative procedure which alternates between expanding the network by adding neuron(s) with carefully chosen weights, and minimizing the training loss using this augmented network. The efficacy of the proposed algorithm is validated using numerical experiments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Learning Neural Networks by Neuron Pursuit

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy D...

When do spectral gradient updates help in deep learning?

Lower Complexity Bounds for Nonconvex-Strongly-Convex Bilevel Optimization with ...

Adaptivity and Universality: Problem-dependent Universal Regret for Online Conve...

A Best-of-Both-Worlds Proof for Tsallis-INF without Fenchel Conjugates

Навигация