Breaking the Conventional Forward-Backward Tie in Neural Networks: Activation Functions
2509.07236v1
cs.NE, cs.AI, cs.LG
2025-09-11
Авторы:
Luigi Troiano, Francesco Gissi, Vincenzo Benedetto, Genny Tortora
Резюме на русском
#### Контекст
Обучение градиентным сетям обычно подразумевает симметричность между прямой и обратной пропагацией, что приводит к жестким ограничениям на выбор активационных функций. Эти функции должны быть дифференцируемыми (или поддифференцируемыми) и иметь монотонную структуру в определенных регионах, чтобы избежать зон плоских градиентов. Эта симметрия связывает прямую пропагацию с обратной, ограничивая выбор функций, в том числе исключая те, что имеют значительные плоские или недифференцируемые регионы. Наша мотивация заключается в проверке этих ограничений и определении возможности использовать более гибкие модели.
#### Метод
Мы проводим математический анализ и показываем, что необходимость точного управления градиентами может быть заменена строгим направлением грейдента. Далее, мы используем архитектуры, такие как Multi-Layer Perceptrons (MLPs), Convolutional Neural Networks (CNNs) и Binary Neural Networks (BNNs), для проведения экспериментов. Мы заменяем традиционные градиенты на простые или стохастические альтернативы, при этом сохраняя направление градиента. Эти эксперименты позволяют проверить гипотезу о необходимости симметрии в задачах обучения.
#### Результаты
Наши эксперименты показали, что сети с активационными функциями, которые являются недифференцируемыми или имеют значительно плоские регионы, такие как Heaviside step function, могут быть эффективно обучены. Мы заметили, что независимость от традиционных градиентов во время обучения не приводит к ухудшению точности и может даже улучшить стабильность и эффективность обучения.
#### Значимость
Отсутствие симметрии между прямой и обратной пропагацией расширяет гибкость в проектировании нейросетей. Мы показали, что можно применять более простые или недифференцируемые активационные функции, что позволяет экономить ресурсы и улучшать производительность. Это открывает пути к разработке эффективных моделей, которые могут быть применены в сложных задачах, таких как обработка сигналов и рекомендательные системы.
#### Выводы
Мы показали, что необходимость симметрии в обучении нейросетей может быть существенно смягчена. Наши результаты открывают новые возможности для разработки моделей с недифференцируемыми активационными функциями. Будущие исследования будут сфокусированы на расширении этих нахождений к более сложным архитектурам, таким как Transformer-based модели.
Abstract
Gradient-based neural network training traditionally enforces symmetry
between forward and backward propagation, requiring activation functions to be
differentiable (or sub-differentiable) and strictly monotonic in certain
regions to prevent flat gradient areas. This symmetry, linking forward
activations closely to backward gradients, significantly restricts the
selection of activation functions, particularly excluding those with
substantial flat or non-differentiable regions. In this paper, we challenge
this assumption through mathematical analysis, demonstrating that precise
gradient magnitudes derived from activation functions are largely redundant,
provided the gradient direction is preserved. Empirical experiments conducted
on foundational architectures - such as Multi-Layer Perceptrons (MLPs),
Convolutional Neural Networks (CNNs), and Binary Neural Networks (BNNs) -
confirm that relaxing forward-backward symmetry and substituting traditional
gradients with simpler or stochastic alternatives does not impair learning and
may even enhance training stability and efficiency. We explicitly demonstrate
that neural networks with flat or non-differentiable activation functions, such
as the Heaviside step function, can be effectively trained, thereby expanding
design flexibility and computational efficiency. Further empirical validation
with more complex architectures remains a valuable direction for future
research.
Ссылки и действия
Дополнительные ресурсы: