On Understanding of the Dynamics of Model Capacity in Continual Learning
2508.08052v2
cs.LG, cs.AI
2025-08-15
Авторы:
Supriyo Chakraborty, Krishnan Raghavan
Резюме на русском
## Контекст
Основной фокус данной работы построен на изучении динамики модели в целях понимания моделирования в пределах тематики продолжительного обучения (continual learning, CL). Нейронные сети (NN), как основные средства машинного обучения, сталкиваются с проблемой "стабильность-пластичность" (stability-plasticity dilemma), которая отражает противоречия в их характере: способность учиться новым задачам (пластичность) и сохранять прошлые знания (стабильность). Взаимодействие этих противоречий играет ключевую роль в CL, где необходимо обеспечить эффективное обучение на постоянно меняющихся данных. Настоящая работа стремится раскрыть изменчивый характер моделирования, определяя его как "эффективную модельную мощность" (effective model capacity, CLEMC).
## Метод
Ключевая инновация данной работы заключается в применении развитого математического подхода для описания характера взаимодействия нейронной сети с задачей и оптимизационным процедурой. Была разработана дифференциальная уравнение, описывающее динамику этого процесса. Это уравнение позволяет моделировать уровень устойчивости и пластичности в зависимости от данных задач, архитектуры сети и оптимизационных методов. Для исследований использовались различные модели, включая небольшие полносвязные сети, сверточные сети, сети графов и трансформеры, реализованные на масштабных данных. Это позволило проверить гипотезы на разнообразных уровнях сложности.
## Результаты
Исследования показали, что эффективная модельная мощность не является стационарной и изменяется в зависимости от характера подаваемых данных и архитектур модели. Особенно выраженно это проявляется при перекрывающихся или сильно различающихся распределениях задач. Эксперименты подтвердили, что даже существенно разные архитектуры моделей сталкиваются с ограничениями в представлении новых задач, когда распределение задач не совпадает с прошлыми. Эти находки подкрепляются анализом теоретических моделей и результатов экспериментов, показывающих, насколько сильно CL зависит от характера входных данных и структуры модели.
## Значимость
Результаты данной работы имеют большое значение для широкого круга задач, включая организационные системы, которым необходимо адаптироваться к постоянно меняющейся среде, и системы управления роботами, которым требуется учиться вне лабораторных условий. Особенно полезны результаты для развития технологий CL в области глубокого обучения, где необходимо учитывать динамику изменения задач и данных. Преимущества CLEMC заключаются в том, что она предоставляет новый подход к измерению и динамике характера обучения, что может способствовать развитию более эффекти
Abstract
The stability-plasticity dilemma, closely related to a neural network's (NN)
capacity-its ability to represent tasks-is a fundamental challenge in continual
learning (CL). Within this context, we introduce CL's effective model capacity
(CLEMC) that characterizes the dynamic behavior of the stability-plasticity
balance point. We develop a difference equation to model the evolution of the
interplay between the NN, task data, and optimization procedure. We then
leverage CLEMC to demonstrate that the effective capacity-and, by extension,
the stability-plasticity balance point is inherently non-stationary. We show
that regardless of the NN architecture or optimization method, a NN's ability
to represent new tasks diminishes when incoming task distributions differ from
previous ones. We conduct extensive experiments to support our theoretical
findings, spanning a range of architectures-from small feedforward network and
convolutional networks to medium-sized graph neural networks and
transformer-based large language models with millions of parameters.
Ссылки и действия
Дополнительные ресурсы: