Automated SNOMED CT Concept Annotation in Clinical Text Using Bi-GRU Neural Networks
2508.02556v1
cs.CL, cs.LG
2025-08-09
Авторы:
Ali Noori, Pratik Devkota, Somya Mohanty, Prashanti Manda
Резюме на русском
Задача автоматического аннотирования клинических текстов стандартизированными медицинскими понятиями SNOMED CT является важной для обеспечения структурированного извлечения данных и поддержки принятия решений в сфере медицины. Однако ручной аннотирование текстов является затратным и неэффективным. В статье предлагается новая модель на основе Bidirectional GRU для автоматического распознавания SNOMED CT-концептов. Модель обучалась на сгенерированных данных от MIMIC-IV, обрабатывая текст с использованием SpaCy и SciBERT для токенизации и предобработки. Эта модель показала высокую точность с F1-мерой 90% на валидационном наборе данных, превосходя традиционные правила и другие нервные модели. Анализ показал, что модель эффективно обрабатывает амбигуозные термины и опечатки. Этот подход подтверждает, что легкие RNN-архитектуры могут обеспечить высокое качество аннотаций с меньшими затратами ресурсов, чем модели на transformer.
Abstract
Automated annotation of clinical text with standardized medical concepts is
critical for enabling structured data extraction and decision support. SNOMED
CT provides a rich ontology for labeling clinical entities, but manual
annotation is labor-intensive and impractical at scale. This study introduces a
neural sequence labeling approach for SNOMED CT concept recognition using a
Bidirectional GRU model. Leveraging a subset of MIMIC-IV, we preprocess text
with domain-adapted SpaCy and SciBERT-based tokenization, segmenting sentences
into overlapping 19-token chunks enriched with contextual, syntactic, and
morphological features. The Bi-GRU model assigns IOB tags to identify concept
spans and achieves strong performance with a 90 percent F1-score on the
validation set. These results surpass traditional rule-based systems and match
or exceed existing neural models. Qualitative analysis shows effective handling
of ambiguous terms and misspellings. Our findings highlight that lightweight
RNN-based architectures can deliver high-quality clinical concept annotation
with significantly lower computational cost than transformer-based models,
making them well-suited for real-world deployment.
Ссылки и действия
Дополнительные ресурсы: