Activation Function Design Sustains Plasticity in Continual Learning
2509.22562v1
cs.LG, cs.AI, cs.CV
2025-09-30
Авторы:
Lute Lillo, Nick Cheney
Резюме на русском
## Контекст
В области нейронных сетей, активационные функции (activation functions) играют ключевую роль в обучении моделей, определяя как их точность, так и их поverьи при обучении. В стандартных сценариях обучения, связанных с идентично распределенными данными (I.I.D), различия между различными активационными функциями часто становятся менее значительными, особенно когда модель имеет достаточную емкость и оптимизационные параметры аккуратно настроены.
Однако в сценариях непрерывного обучения (continual learning), ситуация меняется. Здесь модели не только страдают от катастрофического забвения (catastrophic forgetting), но и могут лишиться способности к адаптации (loss of plasticity) при изменении обучающих данных. Такая проблема весьма серьезна: без потенциала к адаптации модели не могут справиться с новыми задачами или динамическими условиями. Несмотря на то, что существуют стратегии, такие как переобучение, эластичные архитектуры и интеллектуальные методы, роль активационных функций в поддержании пластичности (plasticity) при этом остается нереконструированной.
В данном исследовании авторы показывают, что выбор активационной функции является главным, архитектурно-независимым фактором, позволяющим поддерживать и улучшать пластичность моделей в сценариях непрерывного обучения. Они предлагают два новых типа нелинейных функций (Smooth-Leaky и Randomized Smooth-Leaky), которые могут быть легко интегрированы в существующие архитектуры без существенных изменений. Эти функции были проверены в двух разных сценариях: супервизированном класс-инкрементальном обучении (supervised class-incremental benchmarks) и обучении с подкреплением (reinforcement learning) с использованием MuJoCo-окружений, имитирующих нестационарные ситуации.
## Метод
Исследование основывается на свойственном анализе формы нелинейности (negative-branch shape) и поведения при сглаживании (saturation behavior). Авторы предлагают две новые активационные функции, которые являются расширениями традиционной ReLU-функции:
1. **Smooth-Leaky**: Эта функция представляет собой нелинейную функцию, которая обладает мягкой, гладкой формой, но при этом сохраняет некоторую асимметрию, позволяющую добиться лучшего баланса между сжатием и адаптацией.
2. **Randomized Smooth-Leaky**: Эта версия включает случайные параметры, чтобы дать модели больше степени независимости от конкретных инициализаций и улучшить устойчивость к изменениям.
В экспериментах, авторы использовали два типа бенчмарков:
- **Class-incremental benchmarks**: где модель должна учиться на новых классах без забвения старых.
- **MuJoCo environments**: экосистемы симуляции, где система должна адаптироваться к нестационарным изменениям
Abstract
In independent, identically distributed (i.i.d.) training regimes, activation
functions have been benchmarked extensively, and their differences often shrink
once model size and optimization are tuned. In continual learning, however, the
picture is different: beyond catastrophic forgetting, models can progressively
lose the ability to adapt (referred to as loss of plasticity) and the role of
the non-linearity in this failure mode remains underexplored. We show that
activation choice is a primary, architecture-agnostic lever for mitigating
plasticity loss. Building on a property-level analysis of negative-branch shape
and saturation behavior, we introduce two drop-in nonlinearities (Smooth-Leaky
and Randomized Smooth-Leaky) and evaluate them in two complementary settings:
(i) supervised class-incremental benchmarks and (ii) reinforcement learning
with non-stationary MuJoCo environments designed to induce controlled
distribution and dynamics shifts. We also provide a simple stress protocol and
diagnostics that link the shape of the activation to the adaptation under
change. The takeaway is straightforward: thoughtful activation design offers a
lightweight, domain-general way to sustain plasticity in continual learning
without extra capacity or task-specific tuning.
Ссылки и действия
Дополнительные ресурсы: