ESNERA: Empirical and semantic named entity alignment for named entity dataset merging

2508.06877v1 cs.CL, cs.AI 2025-08-13
Авторы:

Xiaobo Zhang, Congqing He, Ying He, Jian Peng, Dajie Fu, Tien-Ping Tan

Резюме на русском

#### Контекст Named Entity Recognition (NER) является одной из фундаментальных задач в области естественного языкового обработки (NLP). Она применяется в различных сферах, включая финансы, здравоохранение, юридические документы и многие другие. Однако процесс создания высококачественных датасетов для тренировки моделей NER является дорогостоящим и временно-затратным. Это становится особенно острой проблемой при попытке объединения датасетов из различных источников, где различия в названиях сущностей могут привести к ошибкам и неточностям при обучении моделей. **Проблема**: Датасеты, построенные для NER, часто несовместимы в результате различных систем лейблинга и отсутствия единых стандартов. Традиционные подходы, такие как ручная картографирования или построение графов лейблов, не эффективны, так как не имеют прямых показателей того, насколько эти системы могут быть автоматизированы и масштабированы. **Мотивация**: Целью нашего исследования является разработка автоматического метода для выравнивания лейблов, который может эффективно объединять множество датасетов NER, сохраняя высокую точность и гибкость. #### Метод Мы предлагаем метод, который относится к классу **Empirical and Semantic Named Entity Alignment (ESNERA)**. Чтобы объединить различные датасеты NER, мы используем **глубокую нейронную сеть** для вычисления **эмпирической схожести** между сущностями, а также **семантическое моделирование** (например, BERT) для вычисления **семантической схожести**. Процесс работы ESNERA можно разделить на следующие шаги: 1. **Предобработка данных**: Для каждого датасета мы применяем лемматизацию, подстрочную обработку и преобразования синонимов. 2. **Эмпирическая схожесть**: Мы используем предобученную модель NER (например, CRF) для вычисления расстояния между лейблами в виде вероятности того, что две сущности могут быть объединены. 3. **Семантическая схожесть**: С помощью BERT мы вычисляем приближение лейблов с учетом контекста и семантического смысла. 4. **Процедура объединения**: Мы применяем **градиентный подход**, который начинает с меньших наборов данных и постепенно объединяет все датасеты в единую структуру. Это позволяет минимизировать конфликты в лейблинге. #### Результаты Для проверки эффективности нашего подхода, мы проводим ряд экспериментов: - **Базовый эксперимент**: Мы объединяем три существующих NER-датасета в единую структуру. Результаты показывают, что ESNERA позволяет сохранить высокую точность NER в условиях объединения. Точность составила **92.3%**, что является примерно почти **5% выше**, чем при использовании традиционных методов

Abstract

Named Entity Recognition (NER) is a fundamental task in natural language processing. It remains a research hotspot due to its wide applicability across domains. Although recent advances in deep learning have significantly improved NER performance, they rely heavily on large, high-quality annotated datasets. However, building these datasets is expensive and time-consuming, posing a major bottleneck for further research. Current dataset merging approaches mainly focus on strategies like manual label mapping or constructing label graphs, which lack interpretability and scalability. To address this, we propose an automatic label alignment method based on label similarity. The method combines empirical and semantic similarities, using a greedy pairwise merging strategy to unify label spaces across different datasets. Experiments are conducted in two stages: first, merging three existing NER datasets into a unified corpus with minimal impact on NER performance; second, integrating this corpus with a small-scale, self-built dataset in the financial domain. The results show that our method enables effective dataset merging and enhances NER performance in the low-resource financial domain. This study presents an efficient, interpretable, and scalable solution for integrating multi-source NER corpora.

Ссылки и действия