Algebraic Approach to Ridge-Regularized Mean Squared Error Minimization in Minimal ReLU Neural Network
2508.17783v1
stat.ML, cs.AI, cs.LG, stat.CO
2025-08-27
Авторы:
Ryoya Fukasaku, Yutaro Kabata, Akifumi Okuno
Резюме на русском
## Контекст
Перцептрон — простой модель нейронной сети, которая используется для решения задач классификации и регрессии. Одна из основных задач в обучении таких моделей — минимизация квадратичной ошибки с регуляризацией (ridge-regularized mean squared error, RR-MSE). Традиционные методы, такие как градиентный спуск, не всегда эффективны в решении этой задачи, особенно при высоких размерностях. На сегодняшний день недостаточно хорошо понятны структура и свойства решений этой задачи, что ограничивает возможности для понимания и улучшения алгоритмов обучения.
## Метод
В статье предлагается алгебраический подход для решения задачи RR-MSE в релаксационных перцептронах (ReLU). Авторы отмечают, что квадратичная ошибка с регуляризацией является пьезополиномом от весовых коэффициентов сети. Это свойство используется для разработки метода Divide-Enumerate-Merge (DEM). Метод делит пространство параметров на области, в которых RR-MSE является полиномом, и направляет внимание на точное решение каждой части. Далее, полученные решения объединяются в общее решение. Такой подход позволяет не только находить локальные минимумы, но и выявлять высокоразмерные минимумы, такие как кривые и поверхности.
## Результаты
Авторы применяют свой подход к минимальным релаксационным перцептронам (minimal ReLU neural networks) с небольшим числом скрытых слоев. Используя компьютерные алгебраические инструменты, они успешно вычисляют все локальные минимумы RR-MSE в этих моделях. Эксперимент показывает, что метод DEM эффективен в идентификации всех локальных минимумов, включая высокоразмерные. Однако, ввиду высокой сложности вычислений, подход ограничивается небольшими моделями.
## Значимость
Предложенный подход может быть применен в обучении нейронных сетей, чтобы получить глобальные решения задачи RR-MSE. Он имеет потенциал для улучшения точности и стабильности методов обучения. Также, способность идентификации высокоразмерных минимумов делает этот подход уникальным в сравнении с традиционными методами. Несмотря на высокую сложность, результаты доказывают многочисленные преимущества этого подхода, особенно для малых моделей.
## Выводы
Алгебраический подход, описанный в статье, доказывает свою эффективность в решении задачи RR-MSE в релаксационных перцептронах. Он успешно раскрывает структуру решений и открывает новые возможности для анализа и улучшения нейронных сетей. Несмотря на высокую сложность, данный подход может быть расширен на более крупные модели в будущих исследованиях. Это открывает путь к более глубокому пониманию и улучшению нейронных сетей.
Abstract
This paper investigates a perceptron, a simple neural network model, with
ReLU activation and a ridge-regularized mean squared error (RR-MSE). Our
approach leverages the fact that the RR-MSE for ReLU perceptron is piecewise
polynomial, enabling a systematic analysis using tools from computational
algebra. In particular, we develop a Divide-Enumerate-Merge strategy that
exhaustively enumerates all local minima of the RR-MSE. By virtue of the
algebraic formulation, our approach can identify not only the typical
zero-dimensional minima (i.e., isolated points) obtained by numerical
optimization, but also higher-dimensional minima (i.e., connected sets such as
curves, surfaces, or hypersurfaces). Although computational algebraic methods
are computationally very intensive for perceptrons of practical size, as a
proof of concept, we apply the proposed approach in practice to minimal
perceptrons with a few hidden units.