Extracting Post-Acute Sequelae of SARS-CoV-2 Infection Symptoms from Clinical Notes via Hybrid Natural Language Processing

2508.12405v1 cs.CL, cs.AI 2025-08-19
Авторы:

Zilong Bai, Zihan Xu, Cong Sun, Chengxi Zang, H. Timothy Bunnell, Catherine Sinfield, Jacqueline Rutter, Aaron Thomas Martinez, L. Charles Bailey, Mark Weiner, Thomas R. Campion, Thomas Carton, Christopher B. Forrest, Rainu Kaushal, Fei Wang, Yifan Peng

Резюме на русском

## Контекст Последствия COVID-19 (Post-Acute Sequelae of COVID-19, PASC), также известные как "лонг-КОВИ", представляют собой широкий спектр симптомов, возникающих после основного заболевания и продолжающихся долгосрочно. Известно, что PASC может повлиять на различные органы и системы тела, включая сердечную и nervous systems, а также может быть связано с ухудшением качества жизни и даже с повышенной частотой mortality. Однако подтверждение диагноза PASC сложно ввиду его сложной клинической картины, переменного течения симптомов и отсутствия единого gold standard для диагностики. Обработка clinical notes является ключевым инструментом для получения подробной информации о симптомах пациентов, но существуют значительные проблемы с эффективностью и точностью такого подхода. Поэтому, в такой ситуации, развитие и использование новых методологий, таких как natural language processing (NLP), может существенно повысить эффективность и точность диагностики PASC. ## Метод Для получения и анализа данных о симптомах PASC мы разработали hybrid NLP pipeline, которая объединила rule-based named entity recognition (NER) с BERT-based assertion detection modules. Мы разработали PASC lexicon в сотрудничестве с clinical specialists, чтобы обеспечить высокую точность в recognition симптомов PASC. Для моделирования и оценки точности pipeline мы использовали 160 intake progress notes, записанные в 11 health systems, входящих в RECOVER initiative network. Для подтверждения полученных результатов мы провели population-level prevalence study, в которой были собраны 47,654 progress notes. В процессе разработки и оценки мы использовали такие метрики как precision, recall и F1 score. Также, для оценки эффективности pipeline мы измерили время обработки отдельных clinical notes. ## Результаты В ходе внутренней валидации на одном сайте мы достигли F1 score в 0.82, а во внешней валидации на 10 сайтах — 0.76. При этом время обработки отдельных clinical notes составило $2.448 \pm 0.812$ секунд. Результаты Spearman correlation tests показали $\rho > 0.83$ для positive mentions и $\rho > 0.72$ для negative mentions, при $P < 0.0001$. Эти результаты свидетельствуют о высокой точности и эффективности нашего hybrid NLP pipeline в extraction и assertion detection PASC-симптомов из clinical notes. ## Значимость Наша hybrid NLP pipeline может быть применена в различных областях, включая clinical practice, health informatics и biomedical research. Одним из основных преимуществ является улучшение точности диагностики PASC, что может привести к более эффективному управлению пациентами и повышению качества здравоохранения. Также, наша модель может быть использована для повышения эффективности создания clinical datasets для PASC research. Будущие исследования будут направлены на повышение точности и скорости модели, а также на ее применение в real-time clinical settings. ## Выводы Мы разработали и оценили hybrid NLP pipeline для extraction и assertion detection PASC-симптомов из clinical notes. Наши результаты показали высокую точность и эффективность модели, свидетельствующие о ее потенциа

Abstract

Accurately and efficiently diagnosing Post-Acute Sequelae of COVID-19 (PASC) remains challenging due to its myriad symptoms that evolve over long- and variable-time intervals. To address this issue, we developed a hybrid natural language processing pipeline that integrates rule-based named entity recognition with BERT-based assertion detection modules for PASC-symptom extraction and assertion detection from clinical notes. We developed a comprehensive PASC lexicon with clinical specialists. From 11 health systems of the RECOVER initiative network across the U.S., we curated 160 intake progress notes for model development and evaluation, and collected 47,654 progress notes for a population-level prevalence study. We achieved an average F1 score of 0.82 in one-site internal validation and 0.76 in 10-site external validation for assertion detection. Our pipeline processed each note at $2.448\pm 0.812$ seconds on average. Spearman correlation tests showed $\rho >0.83$ for positive mentions and $\rho >0.72$ for negative ones, both with $P <0.0001$. These demonstrate the effectiveness and efficiency of our models and their potential for improving PASC diagnosis.

Ссылки и действия