Early Detection of Pancreatic Cancer Using Multimodal Learning on Electronic Health Record

2508.06627v2 cs.LG, cs.AI 2025-08-13
Авторы:

Mosbah Aouad, Anirudh Choudhary, Awais Farooq, Steven Nevers, Lusine Demirkhanyan, Bhrandon Harris, Suguna Pappu, Christopher Gondi, Ravishankar Iyer

Резюме на русском

## Контекст Панкреатический дуctal аденокарцинома (PDAC) является одной из самых смертоносных форм рака, с годовой продолжительностью жизни менее 5% после диагноза. Одной из ключевых проблем в этой области является затрудненность раннего выявления, в связи с отсутствием определенных симптомов на ранних стадиях заболевания и отсутствием надежных биомаркеров. Несмотря на развитие новых методов диагностики и лечения, PDAC часто выявляется в поздних стадиях, что существенно снижает возможности лечения. Многие исследования сосредоточились на развитии систем для раннего выявления PDAC, но до сих пор не было достигнуто решения, которое могло бы достаточно достоверно использоваться в клинической практике. Наша работа направлена на развитие метода, который может обнаружить PDAC до клинического диагноза на основе данных, доступных в любом клиническом учреждении. ## Метод Мы предлагаем метод, который объединяет несколько моделей машинного обучения, чтобы обнаруживать PDAC на основе данных, доступных в любой клинической системе. Мы использовали две основные модели: **нейронные уравнения различения (Neural Controlled Differential Equations)** для моделирования зависимости изменений значений лабораторных исследований во времени и **рекуррентные нейронные сети (Recurrent Neural Networks)** для обработки и понимания диагностических кодов. Эти две модели были объединены с помощью **кросс-аттенционных механизмов (Cross-Attention)** для учета взаимосвязей между двумя моделями. Мы также использовали предобученные модели текстовой обработки (Pretrained Language Models) для повышения точности распознавания диагностических кодов. Это позволило нам моделировать данные в их натуральной форме, чтобы обнаружить ранние признаки PDAC. ## Результаты Мы проверили наш метод на реальной базе данных, содержащей информацию о 4700 пациентов. Мы сравнили наш результат с тремя современными методами, используемыми для раннего выявления PDAC. Наш метод показал великие улучшения в **AUC (Area Under the Curve)**, которые варьировались от 6.5% до 15.5%, чтобы обнаруживать PDAC до клинического диагноза. Эти результаты показывают, что наш метод превосходит существующие методы в области раннего выявления PDAC. Более того, наша модель позволяет идентифицировать специфические диагностические коды и лабораторные исследования, связанные с высоким риском PDAC, включая как уже известные биомаркеры, так и новые. ## Значимость Наша работа имеет значительное значение для клинической практики, поскольку раннее выявление PDAC может существенно повысить шансы на лечение и улучшить прогноз для пациентов. Наш метод также может быть применен в других областях медицины, г

Abstract

Pancreatic ductal adenocarcinoma (PDAC) is one of the deadliest cancers, and early detection remains a major clinical challenge due to the absence of specific symptoms and reliable biomarkers. In this work, we propose a new multimodal approach that integrates longitudinal diagnosis code histories and routinely collected laboratory measurements from electronic health records to detect PDAC up to one year prior to clinical diagnosis. Our method combines neural controlled differential equations to model irregular lab time series, pretrained language models and recurrent networks to learn diagnosis code trajectory representations, and cross-attention mechanisms to capture interactions between the two modalities. We develop and evaluate our approach on a real-world dataset of nearly 4,700 patients and achieve significant improvements in AUC ranging from 6.5% to 15.5% over state-of-the-art methods. Furthermore, our model identifies diagnosis codes and laboratory panels associated with elevated PDAC risk, including both established and new biomarkers. Our code is available at https://github.com/MosbahAouad/EarlyPDAC-MML.

Ссылки и действия