On Understanding of the Dynamics of Model Capacity in Continual Learning

2508.08052v2 cs.LG, cs.AI 2025-08-15

Авторы:

Supriyo Chakraborty, Krishnan Raghavan

Резюме на русском

## Контекст Основной фокус данной работы построен на изучении динамики модели в целях понимания моделирования в пределах тематики продолжительного обучения (continual learning, CL). Нейронные сети (NN), как основные средства машинного обучения, сталкиваются с проблемой "стабильность-пластичность" (stability-plasticity dilemma), которая отражает противоречия в их характере: способность учиться новым задачам (пластичность) и сохранять прошлые знания (стабильность). Взаимодействие этих противоречий играет ключевую роль в CL, где необходимо обеспечить эффективное обучение на постоянно меняющихся данных. Настоящая работа стремится раскрыть изменчивый характер моделирования, определяя его как "эффективную модельную мощность" (effective model capacity, CLEMC). ## Метод Ключевая инновация данной работы заключается в применении развитого математического подхода для описания характера взаимодействия нейронной сети с задачей и оптимизационным процедурой. Была разработана дифференциальная уравнение, описывающее динамику этого процесса. Это уравнение позволяет моделировать уровень устойчивости и пластичности в зависимости от данных задач, архитектуры сети и оптимизационных методов. Для исследований использовались различные модели, включая небольшие полносвязные сети, сверточные сети, сети графов и трансформеры, реализованные на масштабных данных. Это позволило проверить гипотезы на разнообразных уровнях сложности. ## Результаты Исследования показали, что эффективная модельная мощность не является стационарной и изменяется в зависимости от характера подаваемых данных и архитектур модели. Особенно выраженно это проявляется при перекрывающихся или сильно различающихся распределениях задач. Эксперименты подтвердили, что даже существенно разные архитектуры моделей сталкиваются с ограничениями в представлении новых задач, когда распределение задач не совпадает с прошлыми. Эти находки подкрепляются анализом теоретических моделей и результатов экспериментов, показывающих, насколько сильно CL зависит от характера входных данных и структуры модели. ## Значимость Результаты данной работы имеют большое значение для широкого круга задач, включая организационные системы, которым необходимо адаптироваться к постоянно меняющейся среде, и системы управления роботами, которым требуется учиться вне лабораторных условий. Особенно полезны результаты для развития технологий CL в области глубокого обучения, где необходимо учитывать динамику изменения задач и данных. Преимущества CLEMC заключаются в том, что она предоставляет новый подход к измерению и динамике характера обучения, что может способствовать развитию более эффекти

Abstract

The stability-plasticity dilemma, closely related to a neural network's (NN) capacity-its ability to represent tasks-is a fundamental challenge in continual learning (CL). Within this context, we introduce CL's effective model capacity (CLEMC) that characterizes the dynamic behavior of the stability-plasticity balance point. We develop a difference equation to model the evolution of the interplay between the NN, task data, and optimization procedure. We then leverage CLEMC to demonstrate that the effective capacity-and, by extension, the stability-plasticity balance point is inherently non-stationary. We show that regardless of the NN architecture or optimization method, a NN's ability to represent new tasks diminishes when incoming task distributions differ from previous ones. We conduct extensive experiments to support our theoretical findings, spanning a range of architectures-from small feedforward network and convolutional networks to medium-sized graph neural networks and transformer-based large language models with millions of parameters.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

On Understanding of the Dynamics of Model Capacity in Continual Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация