On Understanding of the Dynamics of Model Capacity in Continual Learning
2508.08052v1
cs.LG, cs.AI
2025-08-13
Авторы:
Supriyo Chakraborty, Krishnan Raghavan
Резюме на русском
## Контекст
Вопросы стабильности и пластичности, тесно связанные с модельной мощностью нейронных сетей в контексте непрерывного обучения (continual learning, CL), являются одними из основных проблем в этой области. Модельная мощность отражает способность нейронной сети сохранять прошлые знания и при этом учиться новым задачам. Однако в непрерывном обучении возникают ситуации, когда сеть должна быстро адаптироваться к новым задачам, что может привести к затуханию предыдущих знаний. Эта проблема называется "стабильность-пластичность" (stability-plasticity dilemma) и является ключевой задачей в теории и практике непрерывного обучения. Мы предлагаем новую метрику — "эффективная модельная мощность" (Effective Model Capacity, CLEMC), которая позволяет оценивать динамику этого баланса во время обучения.
## Метод
Чтобы изучить динамику эффективной модельной мощности, мы разработали дифференциальное уравнение, описывающее зависимость модельной мощности от данных задач, архитектуры нейросети и оптимизационного процесса. Модель описывает не только статическую мощность, но и ее динамическое изменение во время обучения. Мы доказали, что эффективная модельная мощность является нестационарной, то есть она изменяется в зависимости от характера поступающих задач. Это зависимость можно продемонстрировать даже для разных архитектур нейронных сетей, включая простые feedforward сети, сверточные сети и большие модели на основе трансфортеров. Мы также разработали методы для эмпирического измерения CLEMC, что позволит проверить наши теоретические выводы на реальных данных.
## Результаты
Мы провели серию экспериментов, используя разные архитектуры нейронных сетей, включая small feedforward networks, convolutional networks, graph neural networks и large transformer-based language models. Мы измерили CLEMC во время обучения на разных задачах и проверили, как она изменяется при изменении размера сети, типа задачи и других параметров. Наши результаты подтвердили, что для любой архитектуры нейронной сети, во время обучения на новых задачах, эффективная модельная мощность нестационарна и уменьшается, если новые задачи отличаются от предыдущих. Это означает, что нейронные сети теряют в способности представлять новые задачи, когда они неоднородны по своим характеристикам.
## Значимость
Наши результаты имеют значительное значение для развития методов непрерывного обучения. Они показывают, что нестационарность эффективной модельной мощности является общим явлением, не зависящим от архитектуры или оптимизационного метода. Это понятие может быть использовано для моделирования и контроля баланса стабильности и пластичности в нейронных сетях. Благодаря CLEMC, можно разрабатывать более эф
Abstract
The stability-plasticity dilemma, closely related to a neural network's (NN)
capacity-its ability to represent tasks-is a fundamental challenge in continual
learning (CL). Within this context, we introduce CL's effective model capacity
(CLEMC) that characterizes the dynamic behavior of the stability-plasticity
balance point. We develop a difference equation to model the evolution of the
interplay between the NN, task data, and optimization procedure. We then
leverage CLEMC to demonstrate that the effective capacity-and, by extension,
the stability-plasticity balance point is inherently non-stationary. We show
that regardless of the NN architecture or optimization method, a NN's ability
to represent new tasks diminishes when incoming task distributions differ from
previous ones. We conduct extensive experiments to support our theoretical
findings, spanning a range of architectures-from small feedforward network and
convolutional networks to medium-sized graph neural networks and
transformer-based large language models with millions of parameters.
Ссылки и действия
Дополнительные ресурсы: