Breaking the Conventional Forward-Backward Tie in Neural Networks: Activation Functions

2509.07236v1 cs.NE, cs.AI, cs.LG 2025-09-11
Авторы:

Luigi Troiano, Francesco Gissi, Vincenzo Benedetto, Genny Tortora

Резюме на русском

#### Контекст Обучение градиентным сетям обычно подразумевает симметричность между прямой и обратной пропагацией, что приводит к жестким ограничениям на выбор активационных функций. Эти функции должны быть дифференцируемыми (или поддифференцируемыми) и иметь монотонную структуру в определенных регионах, чтобы избежать зон плоских градиентов. Эта симметрия связывает прямую пропагацию с обратной, ограничивая выбор функций, в том числе исключая те, что имеют значительные плоские или недифференцируемые регионы. Наша мотивация заключается в проверке этих ограничений и определении возможности использовать более гибкие модели. #### Метод Мы проводим математический анализ и показываем, что необходимость точного управления градиентами может быть заменена строгим направлением грейдента. Далее, мы используем архитектуры, такие как Multi-Layer Perceptrons (MLPs), Convolutional Neural Networks (CNNs) и Binary Neural Networks (BNNs), для проведения экспериментов. Мы заменяем традиционные градиенты на простые или стохастические альтернативы, при этом сохраняя направление градиента. Эти эксперименты позволяют проверить гипотезу о необходимости симметрии в задачах обучения. #### Результаты Наши эксперименты показали, что сети с активационными функциями, которые являются недифференцируемыми или имеют значительно плоские регионы, такие как Heaviside step function, могут быть эффективно обучены. Мы заметили, что независимость от традиционных градиентов во время обучения не приводит к ухудшению точности и может даже улучшить стабильность и эффективность обучения. #### Значимость Отсутствие симметрии между прямой и обратной пропагацией расширяет гибкость в проектировании нейросетей. Мы показали, что можно применять более простые или недифференцируемые активационные функции, что позволяет экономить ресурсы и улучшать производительность. Это открывает пути к разработке эффективных моделей, которые могут быть применены в сложных задачах, таких как обработка сигналов и рекомендательные системы. #### Выводы Мы показали, что необходимость симметрии в обучении нейросетей может быть существенно смягчена. Наши результаты открывают новые возможности для разработки моделей с недифференцируемыми активационными функциями. Будущие исследования будут сфокусированы на расширении этих нахождений к более сложным архитектурам, таким как Transformer-based модели.

Abstract

Gradient-based neural network training traditionally enforces symmetry between forward and backward propagation, requiring activation functions to be differentiable (or sub-differentiable) and strictly monotonic in certain regions to prevent flat gradient areas. This symmetry, linking forward activations closely to backward gradients, significantly restricts the selection of activation functions, particularly excluding those with substantial flat or non-differentiable regions. In this paper, we challenge this assumption through mathematical analysis, demonstrating that precise gradient magnitudes derived from activation functions are largely redundant, provided the gradient direction is preserved. Empirical experiments conducted on foundational architectures - such as Multi-Layer Perceptrons (MLPs), Convolutional Neural Networks (CNNs), and Binary Neural Networks (BNNs) - confirm that relaxing forward-backward symmetry and substituting traditional gradients with simpler or stochastic alternatives does not impair learning and may even enhance training stability and efficiency. We explicitly demonstrate that neural networks with flat or non-differentiable activation functions, such as the Heaviside step function, can be effectively trained, thereby expanding design flexibility and computational efficiency. Further empirical validation with more complex architectures remains a valuable direction for future research.

Ссылки и действия

Связанные статьи

Projective Kolmogorov Arnold Neural Networks (P-KANs): Entropy-Driven Functional...

## Контекст Проблема исследования заключается в ограниченной точности и понимаемости моделей машинного обучения в област...

2025-09-26

Empirical Investigation into Configuring Echo State Networks for Representative ...

## Контекст Эхо-статусные сети (Echo State Networks, ESN) — это вид рекуррентных нейронных сетей, которые широко применя...

2025-08-16