Algebraic Approach to Ridge-Regularized Mean Squared Error Minimization in Minimal ReLU Neural Network

2508.17783v1 stat.ML, cs.AI, cs.LG, stat.CO 2025-08-27
Авторы:

Ryoya Fukasaku, Yutaro Kabata, Akifumi Okuno

Резюме на русском

## Контекст Перцептрон — простой модель нейронной сети, которая используется для решения задач классификации и регрессии. Одна из основных задач в обучении таких моделей — минимизация квадратичной ошибки с регуляризацией (ridge-regularized mean squared error, RR-MSE). Традиционные методы, такие как градиентный спуск, не всегда эффективны в решении этой задачи, особенно при высоких размерностях. На сегодняшний день недостаточно хорошо понятны структура и свойства решений этой задачи, что ограничивает возможности для понимания и улучшения алгоритмов обучения. ## Метод В статье предлагается алгебраический подход для решения задачи RR-MSE в релаксационных перцептронах (ReLU). Авторы отмечают, что квадратичная ошибка с регуляризацией является пьезополиномом от весовых коэффициентов сети. Это свойство используется для разработки метода Divide-Enumerate-Merge (DEM). Метод делит пространство параметров на области, в которых RR-MSE является полиномом, и направляет внимание на точное решение каждой части. Далее, полученные решения объединяются в общее решение. Такой подход позволяет не только находить локальные минимумы, но и выявлять высокоразмерные минимумы, такие как кривые и поверхности. ## Результаты Авторы применяют свой подход к минимальным релаксационным перцептронам (minimal ReLU neural networks) с небольшим числом скрытых слоев. Используя компьютерные алгебраические инструменты, они успешно вычисляют все локальные минимумы RR-MSE в этих моделях. Эксперимент показывает, что метод DEM эффективен в идентификации всех локальных минимумов, включая высокоразмерные. Однако, ввиду высокой сложности вычислений, подход ограничивается небольшими моделями. ## Значимость Предложенный подход может быть применен в обучении нейронных сетей, чтобы получить глобальные решения задачи RR-MSE. Он имеет потенциал для улучшения точности и стабильности методов обучения. Также, способность идентификации высокоразмерных минимумов делает этот подход уникальным в сравнении с традиционными методами. Несмотря на высокую сложность, результаты доказывают многочисленные преимущества этого подхода, особенно для малых моделей. ## Выводы Алгебраический подход, описанный в статье, доказывает свою эффективность в решении задачи RR-MSE в релаксационных перцептронах. Он успешно раскрывает структуру решений и открывает новые возможности для анализа и улучшения нейронных сетей. Несмотря на высокую сложность, данный подход может быть расширен на более крупные модели в будущих исследованиях. Это открывает путь к более глубокому пониманию и улучшению нейронных сетей.

Abstract

This paper investigates a perceptron, a simple neural network model, with ReLU activation and a ridge-regularized mean squared error (RR-MSE). Our approach leverages the fact that the RR-MSE for ReLU perceptron is piecewise polynomial, enabling a systematic analysis using tools from computational algebra. In particular, we develop a Divide-Enumerate-Merge strategy that exhaustively enumerates all local minima of the RR-MSE. By virtue of the algebraic formulation, our approach can identify not only the typical zero-dimensional minima (i.e., isolated points) obtained by numerical optimization, but also higher-dimensional minima (i.e., connected sets such as curves, surfaces, or hypersurfaces). Although computational algebraic methods are computationally very intensive for perceptrons of practical size, as a proof of concept, we apply the proposed approach in practice to minimal perceptrons with a few hidden units.

Ссылки и действия