Exploring Stability-Plasticity Trade-offs for Continual Named Entity Recognition

2508.03259v1 cs.CL 2025-08-09
Авторы:

Duzhen Zhang, Chenxing Li, Jiahua Dong, Qi Liu, Dong Yu

Резюме на русском

**Резюме** В статье предлагается метод Stability-Plasticity Trade-off (SPT) для проблемы Continual Named Entity Recognition (CNER), связанной с последовательным обновлением модели для распознавания новых сущностей, учитывая необходимость сохранения предыдущего знания. Основная проблема — тенденция традиционных подходов, основанных на Knowledge Distillation (KD), к сильному сохранению старого знания за счет ограниченной пластичности (поглощения нового). SPT метод расширяет оригинальный KD с помощью пулинга для добиваться баланса между стабильностью и пластичностью. Он также включает в себя динамическую систему слияния весов старых и новых моделей, а также стратегию подбора значимых весов. Кроме того, предложен улучшенный метод подбора pseduo-labels для неизвестных сущностей, обрабатывающий семантические сдвиги, которые были прежде недооценены. Результаты на трех бенчмарковых датасетах показали, что SPT превосходит предыдущие подходы, достигая более эффективного баланса стабильности и пластичности в CNER.

Abstract

Continual Named Entity Recognition (CNER) is an evolving field that focuses on sequentially updating an existing model to incorporate new entity types. Previous CNER methods primarily utilize Knowledge Distillation (KD) to preserve prior knowledge and overcome catastrophic forgetting, strictly ensuring that the representations of old and new models remain consistent. Consequently, they often impart the model with excessive stability (i.e., retention of old knowledge) but limited plasticity (i.e., acquisition of new knowledge). To address this issue, we propose a Stability-Plasticity Trade-off (SPT) method for CNER that balances these aspects from both representation and weight perspectives. From the representation perspective, we introduce a pooling operation into the original KD, permitting a level of plasticity by consolidating representation dimensions. From the weight perspective, we dynamically merge the weights of old and new models, strengthening old knowledge while maintaining new knowledge. During this fusion, we implement a weight-guided selective mechanism to prioritize significant weights. Moreover, we develop a confidence-based pseudo-labeling approach for the current non-entity type, which predicts entity types using the old model to handle the semantic shift of the non-entity type, a challenge specific to CNER that has largely been ignored by previous methods. Extensive experiments across ten CNER settings on three benchmark datasets demonstrate that our SPT method surpasses previous CNER approaches, highlighting its effectiveness in achieving a suitable stability-plasticity trade-off.

Ссылки и действия