ESNERA: Empirical and semantic named entity alignment for named entity dataset merging
2508.06877v1
cs.CL, cs.AI
2025-08-13
Авторы:
Xiaobo Zhang, Congqing He, Ying He, Jian Peng, Dajie Fu, Tien-Ping Tan
Резюме на русском
#### Контекст
Named Entity Recognition (NER) является одной из фундаментальных задач в области естественного языкового обработки (NLP). Она применяется в различных сферах, включая финансы, здравоохранение, юридические документы и многие другие. Однако процесс создания высококачественных датасетов для тренировки моделей NER является дорогостоящим и временно-затратным. Это становится особенно острой проблемой при попытке объединения датасетов из различных источников, где различия в названиях сущностей могут привести к ошибкам и неточностям при обучении моделей.
**Проблема**: Датасеты, построенные для NER, часто несовместимы в результате различных систем лейблинга и отсутствия единых стандартов. Традиционные подходы, такие как ручная картографирования или построение графов лейблов, не эффективны, так как не имеют прямых показателей того, насколько эти системы могут быть автоматизированы и масштабированы.
**Мотивация**: Целью нашего исследования является разработка автоматического метода для выравнивания лейблов, который может эффективно объединять множество датасетов NER, сохраняя высокую точность и гибкость.
#### Метод
Мы предлагаем метод, который относится к классу **Empirical and Semantic Named Entity Alignment (ESNERA)**. Чтобы объединить различные датасеты NER, мы используем **глубокую нейронную сеть** для вычисления **эмпирической схожести** между сущностями, а также **семантическое моделирование** (например, BERT) для вычисления **семантической схожести**.
Процесс работы ESNERA можно разделить на следующие шаги:
1. **Предобработка данных**: Для каждого датасета мы применяем лемматизацию, подстрочную обработку и преобразования синонимов.
2. **Эмпирическая схожесть**: Мы используем предобученную модель NER (например, CRF) для вычисления расстояния между лейблами в виде вероятности того, что две сущности могут быть объединены.
3. **Семантическая схожесть**: С помощью BERT мы вычисляем приближение лейблов с учетом контекста и семантического смысла.
4. **Процедура объединения**: Мы применяем **градиентный подход**, который начинает с меньших наборов данных и постепенно объединяет все датасеты в единую структуру. Это позволяет минимизировать конфликты в лейблинге.
#### Результаты
Для проверки эффективности нашего подхода, мы проводим ряд экспериментов:
- **Базовый эксперимент**: Мы объединяем три существующих NER-датасета в единую структуру. Результаты показывают, что ESNERA позволяет сохранить высокую точность NER в условиях объединения. Точность составила **92.3%**, что является примерно почти **5% выше**, чем при использовании традиционных методов
Abstract
Named Entity Recognition (NER) is a fundamental task in natural language
processing. It remains a research hotspot due to its wide applicability across
domains. Although recent advances in deep learning have significantly improved
NER performance, they rely heavily on large, high-quality annotated datasets.
However, building these datasets is expensive and time-consuming, posing a
major bottleneck for further research. Current dataset merging approaches
mainly focus on strategies like manual label mapping or constructing label
graphs, which lack interpretability and scalability. To address this, we
propose an automatic label alignment method based on label similarity. The
method combines empirical and semantic similarities, using a greedy pairwise
merging strategy to unify label spaces across different datasets. Experiments
are conducted in two stages: first, merging three existing NER datasets into a
unified corpus with minimal impact on NER performance; second, integrating this
corpus with a small-scale, self-built dataset in the financial domain. The
results show that our method enables effective dataset merging and enhances NER
performance in the low-resource financial domain. This study presents an
efficient, interpretable, and scalable solution for integrating multi-source
NER corpora.
Ссылки и действия
Дополнительные ресурсы: