Activation Function Design Sustains Plasticity in Continual Learning

2509.22562v1 cs.LG, cs.AI, cs.CV 2025-09-30
Авторы:

Lute Lillo, Nick Cheney

Резюме на русском

## Контекст В области нейронных сетей, активационные функции (activation functions) играют ключевую роль в обучении моделей, определяя как их точность, так и их поverьи при обучении. В стандартных сценариях обучения, связанных с идентично распределенными данными (I.I.D), различия между различными активационными функциями часто становятся менее значительными, особенно когда модель имеет достаточную емкость и оптимизационные параметры аккуратно настроены. Однако в сценариях непрерывного обучения (continual learning), ситуация меняется. Здесь модели не только страдают от катастрофического забвения (catastrophic forgetting), но и могут лишиться способности к адаптации (loss of plasticity) при изменении обучающих данных. Такая проблема весьма серьезна: без потенциала к адаптации модели не могут справиться с новыми задачами или динамическими условиями. Несмотря на то, что существуют стратегии, такие как переобучение, эластичные архитектуры и интеллектуальные методы, роль активационных функций в поддержании пластичности (plasticity) при этом остается нереконструированной. В данном исследовании авторы показывают, что выбор активационной функции является главным, архитектурно-независимым фактором, позволяющим поддерживать и улучшать пластичность моделей в сценариях непрерывного обучения. Они предлагают два новых типа нелинейных функций (Smooth-Leaky и Randomized Smooth-Leaky), которые могут быть легко интегрированы в существующие архитектуры без существенных изменений. Эти функции были проверены в двух разных сценариях: супервизированном класс-инкрементальном обучении (supervised class-incremental benchmarks) и обучении с подкреплением (reinforcement learning) с использованием MuJoCo-окружений, имитирующих нестационарные ситуации. ## Метод Исследование основывается на свойственном анализе формы нелинейности (negative-branch shape) и поведения при сглаживании (saturation behavior). Авторы предлагают две новые активационные функции, которые являются расширениями традиционной ReLU-функции: 1. **Smooth-Leaky**: Эта функция представляет собой нелинейную функцию, которая обладает мягкой, гладкой формой, но при этом сохраняет некоторую асимметрию, позволяющую добиться лучшего баланса между сжатием и адаптацией. 2. **Randomized Smooth-Leaky**: Эта версия включает случайные параметры, чтобы дать модели больше степени независимости от конкретных инициализаций и улучшить устойчивость к изменениям. В экспериментах, авторы использовали два типа бенчмарков: - **Class-incremental benchmarks**: где модель должна учиться на новых классах без забвения старых. - **MuJoCo environments**: экосистемы симуляции, где система должна адаптироваться к нестационарным изменениям

Abstract

In independent, identically distributed (i.i.d.) training regimes, activation functions have been benchmarked extensively, and their differences often shrink once model size and optimization are tuned. In continual learning, however, the picture is different: beyond catastrophic forgetting, models can progressively lose the ability to adapt (referred to as loss of plasticity) and the role of the non-linearity in this failure mode remains underexplored. We show that activation choice is a primary, architecture-agnostic lever for mitigating plasticity loss. Building on a property-level analysis of negative-branch shape and saturation behavior, we introduce two drop-in nonlinearities (Smooth-Leaky and Randomized Smooth-Leaky) and evaluate them in two complementary settings: (i) supervised class-incremental benchmarks and (ii) reinforcement learning with non-stationary MuJoCo environments designed to induce controlled distribution and dynamics shifts. We also provide a simple stress protocol and diagnostics that link the shape of the activation to the adaptation under change. The takeaway is straightforward: thoughtful activation design offers a lightweight, domain-general way to sustain plasticity in continual learning without extra capacity or task-specific tuning.

Ссылки и действия