Automated SNOMED CT Concept Annotation in Clinical Text Using Bi-GRU Neural Networks

2508.02556v1 cs.CL, cs.LG 2025-08-09
Авторы:

Ali Noori, Pratik Devkota, Somya Mohanty, Prashanti Manda

Резюме на русском

Задача автоматического аннотирования клинических текстов стандартизированными медицинскими понятиями SNOMED CT является важной для обеспечения структурированного извлечения данных и поддержки принятия решений в сфере медицины. Однако ручной аннотирование текстов является затратным и неэффективным. В статье предлагается новая модель на основе Bidirectional GRU для автоматического распознавания SNOMED CT-концептов. Модель обучалась на сгенерированных данных от MIMIC-IV, обрабатывая текст с использованием SpaCy и SciBERT для токенизации и предобработки. Эта модель показала высокую точность с F1-мерой 90% на валидационном наборе данных, превосходя традиционные правила и другие нервные модели. Анализ показал, что модель эффективно обрабатывает амбигуозные термины и опечатки. Этот подход подтверждает, что легкие RNN-архитектуры могут обеспечить высокое качество аннотаций с меньшими затратами ресурсов, чем модели на transformer.

Abstract

Automated annotation of clinical text with standardized medical concepts is critical for enabling structured data extraction and decision support. SNOMED CT provides a rich ontology for labeling clinical entities, but manual annotation is labor-intensive and impractical at scale. This study introduces a neural sequence labeling approach for SNOMED CT concept recognition using a Bidirectional GRU model. Leveraging a subset of MIMIC-IV, we preprocess text with domain-adapted SpaCy and SciBERT-based tokenization, segmenting sentences into overlapping 19-token chunks enriched with contextual, syntactic, and morphological features. The Bi-GRU model assigns IOB tags to identify concept spans and achieves strong performance with a 90 percent F1-score on the validation set. These results surpass traditional rule-based systems and match or exceed existing neural models. Qualitative analysis shows effective handling of ambiguous terms and misspellings. Our findings highlight that lightweight RNN-based architectures can deliver high-quality clinical concept annotation with significantly lower computational cost than transformer-based models, making them well-suited for real-world deployment.

Ссылки и действия