📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Toric geometry of ReLU neural networks

2025-09-12

Авторы:

Yaoying Fu

## Контекст Топологические свойства нейронных сетей релаксационных функций (ReLU) широко исследованы в области машинного обучения и глубокого обучения. Одной из ключевых задач является определение возможности реализации конкретной функции с заданной архитектурой нейронной сети. Однако этот вопрос часто остается открытым, особенно в случае нейросетей с постоянными весами. Для решения этой проблемы, теоретические исследования предприняты в сфере топологической и геометрической моделирования реал-типа функций, которые могут быть реализованы с помощью нейронных сетей ReLU. Одним из таких подходов является применение топологической геометрии, в частности, торической геометрии, для изучения структуры и свойств ReLU нейронных сетей. ## Метод Методология основывается на установлении связи между торической геометрией и нейронными сетями ReLU. Автор рассматривает нейронную сеть с нейтральными весами и рациональными весами. Определяется понятие "реал-торического фана", "реал-торического пространства" и "реал-торического дивизора", связанных с данной нейронной сетью. Алгоритм основывается на расчетах топологических характеристик этих объектов, которые позволяют определить возможность реализации функций с помощью данной архитектуры. Также рассматривается связь между торической и тропической геометрией в контексте ReLU нейронных сетей. ## Результаты Используя разработанный метод, автор получает критерий реализации функций с помощью нейронных сетей ReLU с одним скрытым слоем. Для этого проводятся расчеты топологических характеристик, в том числе контрольных точек и интересующих критериев. Эти расчеты позволяют определить, какие функции могут быть реализованы с помощью данной нейронной сети. Также показывается, как развитая топологическая модель позволяет изучать связи между различными типами реал-функций и их представлением в терминах торической геометрии. ## Значимость Разработанный подход имеет значительное теоретическое и практическое значение. Он может быть применен для развития методов анализа и моделирования нейронных сетей, включая изучение свойств и ограничений реализации функций. Также, полученные результаты могут быть использованы в области глубокого обучения для улучшения алгоритмов реализации функций, а также для развития теоретических моделей, позволяющих оценивать реал-функции и их реализацию с помощью ReLU нейронных сетей. ## Выводы В ходе работы установлены теоретические основы для проверки возможности реализации функций с помощью нейронных сетей

Annotation:

Given a continuous finitely piecewise linear function $f:\mathbb{R}^{n_0} \to \mathbb{R}$ and a fixed architecture $(n_0,\ldots,n_k;1)$ of feedforward ReLU neural networks, the exact function realization problem is to determine when some network with the given architecture realizes $f$. To develop a systematic way to answer these questions, we establish a connection between toric geometry and ReLU neural networks. This approach enables us to utilize numerous structures and tools from algebraic g...

ID: 2509.05894v1 math.AG, cs.LG, stat.ML

arXiv PDF

📄 Constraining the outputs of ReLU neural networks

2025-08-09

Авторы:

Yulia Alexandr, Guido Montúfar

## Контекст Модели глубокого обучения, основанные на нейронных сетях с активационной функцией ReLU (Rectified Linear Unit), широко распространены в задачах классификации, регрессии и обработки изображений. Однако, точкой желания является получение более подробного понимания функциональных возможностей таких сетей, а также изучение связей между их архитектурой и поведением. Несмотря на их эффективность в практических задачах, говорить о структуре и ограничениях, которые определяют выходные данные ReLU-сетей, до сих пор остается неполным. В этой работе рассматривается связь между архитектурой ReLU-сети и выходом, а также описывается метод для построения многообразий, характеризующих вычисления таких сетей. ## Метод Авторы предлагают подход, основанный на анализе мономической структуры выходных данных ReLU-сетей, в том числе в зависимости от входных значений и параметров сетей. Они вводят многообразия, характеризующие эти функции, и исследуют свойства этих многообразий, в том числе ранг выхода в каждой сегментации входа. Для этого применяются методы алгебры и геометрии, что позволяет вывести полиномиальные уравнения, описывающие представимые выходы сетей. Эта аналитическая модель дает возможность понять, какие типы функций могут быть вычислены сетью, и какие ограничения размерности влияют на это. ## Результаты Исследователи проводят эксперименты с различными архитектурами ReLU-сетей, в том числе сетями с разным количеством слоёв и нейронов. Они используют широкий набор данных, включая синтетические и реальные, для проверки предложенного подхода. Результаты показывают, что точность описания выходных функций ReLU-сетей довольно высока, а полученные многообразия позволяют лучше понять структуру и ограничения, встречающиеся в нейронных сетях. Это дает возможность не только улучшить понимание ReLU-сетей, но и повысить эффективность их обучения и применения в практических задачах. ## Значимость Результаты этой работы имеют большую значимость в нескольких областях. Во-первых, они помогают понять, как работают ReLU-сети, что важно для их оптимизации и улучшения. Во-вторых, можно использовать эти полученные ограничения для построения более эффективных алгоритмов обучения, в том числе для решения задач с невидимым решением. И наконец, этот подход может быть применен для интерпретации выходных данных сети, что важно для объяснения решений, которые она принимает, и для улучшения надежности в сложных приложениях. ## Выводы В целом, работа предлагает новый инструментальный подход для изучения ReLU-сетей, позволяя лучше понимать их структуру и ограничения.

Annotation:

We introduce a class of algebraic varieties naturally associated with ReLU neural networks, arising from the piecewise linear structure of their outputs across activation regions in input space, and the piecewise multilinear structure in parameter space. By analyzing the rank constraints on the network outputs within each activation region, we derive polynomial equations that characterize the functions representable by the network. We further investigate conditions under which these varieties at...

ID: 2508.03867v1 math.AG, cs.LG, stat.ML

arXiv PDF