Exploring Stability-Plasticity Trade-offs for Continual Named Entity Recognition
2508.03259v1
cs.CL
2025-08-09
Авторы:
Duzhen Zhang, Chenxing Li, Jiahua Dong, Qi Liu, Dong Yu
Резюме на русском
**Резюме**
В статье предлагается метод Stability-Plasticity Trade-off (SPT) для проблемы Continual Named Entity Recognition (CNER), связанной с последовательным обновлением модели для распознавания новых сущностей, учитывая необходимость сохранения предыдущего знания. Основная проблема — тенденция традиционных подходов, основанных на Knowledge Distillation (KD), к сильному сохранению старого знания за счет ограниченной пластичности (поглощения нового). SPT метод расширяет оригинальный KD с помощью пулинга для добиваться баланса между стабильностью и пластичностью. Он также включает в себя динамическую систему слияния весов старых и новых моделей, а также стратегию подбора значимых весов. Кроме того, предложен улучшенный метод подбора pseduo-labels для неизвестных сущностей, обрабатывающий семантические сдвиги, которые были прежде недооценены. Результаты на трех бенчмарковых датасетах показали, что SPT превосходит предыдущие подходы, достигая более эффективного баланса стабильности и пластичности в CNER.
Abstract
Continual Named Entity Recognition (CNER) is an evolving field that focuses
on sequentially updating an existing model to incorporate new entity types.
Previous CNER methods primarily utilize Knowledge Distillation (KD) to preserve
prior knowledge and overcome catastrophic forgetting, strictly ensuring that
the representations of old and new models remain consistent. Consequently, they
often impart the model with excessive stability (i.e., retention of old
knowledge) but limited plasticity (i.e., acquisition of new knowledge). To
address this issue, we propose a Stability-Plasticity Trade-off (SPT) method
for CNER that balances these aspects from both representation and weight
perspectives. From the representation perspective, we introduce a pooling
operation into the original KD, permitting a level of plasticity by
consolidating representation dimensions. From the weight perspective, we
dynamically merge the weights of old and new models, strengthening old
knowledge while maintaining new knowledge. During this fusion, we implement a
weight-guided selective mechanism to prioritize significant weights. Moreover,
we develop a confidence-based pseudo-labeling approach for the current
non-entity type, which predicts entity types using the old model to handle the
semantic shift of the non-entity type, a challenge specific to CNER that has
largely been ignored by previous methods. Extensive experiments across ten CNER
settings on three benchmark datasets demonstrate that our SPT method surpasses
previous CNER approaches, highlighting its effectiveness in achieving a
suitable stability-plasticity trade-off.
Ссылки и действия
Дополнительные ресурсы: