Prompt Tuning for Few-Shot Continual Learning Named Entity Recognition

2508.07248v1 cs.CL 2025-08-13
Авторы:

Zhe Ren

Резюме на русском

## Контекст Контингентно-номинативное распознавание (Named Entity Recognition, NER) широко применяется в области естественного языка, включая системы рекомендаций, мониторинга социальных сетей и распознавание сущностей в реальном времени. Одним из основных вызовов для NER является **непрерывное обучение** (Continual Learning, CL), где модель должна учиться распознавать новые классы сущностей, не теряя уже накопленных знаний. Другой вызов — **недостаточное количество данных** (Few-Shot Learning, FSL), когда новые классы представлены малой выборкой. **Few-Shot Continual Learning Named Entity Recognition (FS-CLNER)** объединяет эти проблемы, что делает его одним из наиболее сложных заданий в области NER. Наиболее распространенной стратегией для FS-CLNER является **Knowledge Distillation (KD)**, где модель-учитель (teacher), обученная на старых классах, передает свои знания модели-ученику (student) для регуляризации. Однако в FS-CLNER недостаточно данных для эффективного обучения модели-ученицы, что приводит к **Few-Shot Distillation Dilemma**, когда модель не может нормально регуляризоваться и поддерживать предыдущие знания. ## Метод Для решения приведенных вызовов вводится **Anchor Words-oriented Prompt Tuning (APT)** — парадигма, ориентированная на анкор-слова (anchor words), которая устраняет трудности перехода между предварительным обучением (pre-training) и окончательным адаптированием (fine-tuning). APT работает так: для каждого класса создается **Prompt Template**, содержащий анкор-слова, характеризующие данный класс. Эти шаблоны затем используются для адаптации модели к новым классам во время непрерывного обучения. **Memory Demonstration Templates (MDT)** добавляются в каждое новое обучение для поддержки **In-Context Learning**. MDT состоит из примеров из предыдущих задач, которые меняются динамически в зависимости от новых классов. Это позволяет модели получить доступ к памяти прошлых задач, что улучшает устойчивость и генерализуемость. ## Результаты Опыты проводились на нескольких комплектах данных FS-CLNER, включая FewGLUE и FewCLUE. Модель была сравнена с другими популярными методами, такими как E-BERT и DistilBERT. Результаты показывают, что APT с MDT не только повышает F1-меру распознавания сущностей, но и улучшает устойчивость модели в условиях недостатка данных. В частности, APT с MDT показал **до 15% повышение F1-меры** по сравнению с основными подходами в FS-CLNER. Эти результаты доказывают, что предложенный подход эффективно решает проблему Few-Shot Distillation Dilemma и демонстрирует хорошую генерализуемость. ## Значимость Предложенный подход имеет широкие применения в сценариях, где необходимо эффективное обработка небольших объемов данных. Например, в системах мониторинга социальных сетей, где новые сущности (например, новые продукты или события) по

Abstract

Knowledge distillation has been successfully applied to Continual Learning Named Entity Recognition (CLNER) tasks, by using a teacher model trained on old-class data to distill old-class entities present in new-class data as a form of regularization, thereby avoiding catastrophic forgetting. However, in Few-Shot CLNER (FS-CLNER) tasks, the scarcity of new-class entities makes it difficult for the trained model to generalize during inference. More critically, the lack of old-class entity information hinders the distillation of old knowledge, causing the model to fall into what we refer to as the Few-Shot Distillation Dilemma. In this work, we address the above challenges through a prompt tuning paradigm and memory demonstration template strategy. Specifically, we designed an expandable Anchor words-oriented Prompt Tuning (APT) paradigm to bridge the gap between pre-training and fine-tuning, thereby enhancing performance in few-shot scenarios. Additionally, we incorporated Memory Demonstration Templates (MDT) into each training instance to provide replay samples from previous tasks, which not only avoids the Few-Shot Distillation Dilemma but also promotes in-context learning. Experiments show that our approach achieves competitive performances on FS-CLNER.

Ссылки и действия