On Understanding of the Dynamics of Model Capacity in Continual Learning

2508.08052v1 cs.LG, cs.AI 2025-08-13

Авторы:

Supriyo Chakraborty, Krishnan Raghavan

Резюме на русском

## Контекст Вопросы стабильности и пластичности, тесно связанные с модельной мощностью нейронных сетей в контексте непрерывного обучения (continual learning, CL), являются одними из основных проблем в этой области. Модельная мощность отражает способность нейронной сети сохранять прошлые знания и при этом учиться новым задачам. Однако в непрерывном обучении возникают ситуации, когда сеть должна быстро адаптироваться к новым задачам, что может привести к затуханию предыдущих знаний. Эта проблема называется "стабильность-пластичность" (stability-plasticity dilemma) и является ключевой задачей в теории и практике непрерывного обучения. Мы предлагаем новую метрику — "эффективная модельная мощность" (Effective Model Capacity, CLEMC), которая позволяет оценивать динамику этого баланса во время обучения. ## Метод Чтобы изучить динамику эффективной модельной мощности, мы разработали дифференциальное уравнение, описывающее зависимость модельной мощности от данных задач, архитектуры нейросети и оптимизационного процесса. Модель описывает не только статическую мощность, но и ее динамическое изменение во время обучения. Мы доказали, что эффективная модельная мощность является нестационарной, то есть она изменяется в зависимости от характера поступающих задач. Это зависимость можно продемонстрировать даже для разных архитектур нейронных сетей, включая простые feedforward сети, сверточные сети и большие модели на основе трансфортеров. Мы также разработали методы для эмпирического измерения CLEMC, что позволит проверить наши теоретические выводы на реальных данных. ## Результаты Мы провели серию экспериментов, используя разные архитектуры нейронных сетей, включая small feedforward networks, convolutional networks, graph neural networks и large transformer-based language models. Мы измерили CLEMC во время обучения на разных задачах и проверили, как она изменяется при изменении размера сети, типа задачи и других параметров. Наши результаты подтвердили, что для любой архитектуры нейронной сети, во время обучения на новых задачах, эффективная модельная мощность нестационарна и уменьшается, если новые задачи отличаются от предыдущих. Это означает, что нейронные сети теряют в способности представлять новые задачи, когда они неоднородны по своим характеристикам. ## Значимость Наши результаты имеют значительное значение для развития методов непрерывного обучения. Они показывают, что нестационарность эффективной модельной мощности является общим явлением, не зависящим от архитектуры или оптимизационного метода. Это понятие может быть использовано для моделирования и контроля баланса стабильности и пластичности в нейронных сетях. Благодаря CLEMC, можно разрабатывать более эф

Abstract

The stability-plasticity dilemma, closely related to a neural network's (NN) capacity-its ability to represent tasks-is a fundamental challenge in continual learning (CL). Within this context, we introduce CL's effective model capacity (CLEMC) that characterizes the dynamic behavior of the stability-plasticity balance point. We develop a difference equation to model the evolution of the interplay between the NN, task data, and optimization procedure. We then leverage CLEMC to demonstrate that the effective capacity-and, by extension, the stability-plasticity balance point is inherently non-stationary. We show that regardless of the NN architecture or optimization method, a NN's ability to represent new tasks diminishes when incoming task distributions differ from previous ones. We conduct extensive experiments to support our theoretical findings, spanning a range of architectures-from small feedforward network and convolutional networks to medium-sized graph neural networks and transformer-based large language models with millions of parameters.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

On Understanding of the Dynamics of Model Capacity in Continual Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация