Automated Hierarchical Graph Construction for Multi-source Electronic Health Records

2509.06576v1 stat.ML, cs.LG 2025-09-10
Авторы:

Yinjie Wang, Doudou Zhou, Yue Liu, Junwei Lu, Tianxi Cai

Резюме на русском

## Контекст Современное здравоохранение сильно полагается на электронные медицинские рекорды (Electronic Health Records, EHRs), которые содержат разнообразные клинические данные, включая диагнозы, лекарственные препараты и лабораторные исследования. Эти данные имеют большое значение для трансляционных исследований, поддержки клинических исследований и получения реального мирового опыта. Однако синтез данных EHR из разных институтов сталкивается с тем, что медицинские коды и терминологии имеют индивидуальные особенности для каждого заведения, а также не существует единого стандарта для структурирования EHR. Эти проблемы снижают понимание, сравнимость и масштабируемость EHR-данных, что ограничивает мощность анализа. Необходимо разработать методы, которые позволят гармонизировать и извлекать смысловые отношения из разных источников клинических данных. ## Метод Мы предлагаем MASH (Multi-source Automated Structured Hierarchy), полностью автоматизированную систему, которая строит иерархические графы на основе нейронного способа оптимального транспорта и использует гиперболические входящие преобразования для построения графов. В процессе тренировки MASH использует предварительно обученные языковые модели, модели основанные на сочетаниях встречаемости, текстовые описания и заданные метки, чтобы лучше ловить семантические и иерархические отношения в медицинских понятиях. Это позволяет ему точно сопоставлять медицинские коды между различными заведениями и строить интерпретируемые иерархические графы для более эффективного анализа клинических данных. ## Результаты Мы применили MASH к реальным данным EHR, включая диагнозы, лекарства и лабораторные результаты. Это позволило построить иерархические графы, которые упростили процесс разбора и понимания разнообразных клинических данных. Особенно заметно было это в случае неструктурированных локальных лабораторных кодов, для которых MASH сформировал первые автоматические иерархии, создав новые стандарты для последующих исследований в этой области. ## Значимость Разработанный подход может быть применен в различных областях здравоохранения, включая генерацию реального мирового опыта, оптимизацию клинических исследований и преодоление барьеров, связанных с хранением данных. Он предоставляет новый способ для понимания разнообразных и распределенных клинических данных, что может способствовать повышению качества здравоохранения и более точного диагностирования. Будущие исследования будут сконцентрированы на улучшении точности и масштабируемости этого подхода для более широкого применения в различных медицинских задачах. ## Выво

Abstract

Electronic Health Records (EHRs), comprising diverse clinical data such as diagnoses, medications, and laboratory results, hold great promise for translational research. EHR-derived data have advanced disease prevention, improved clinical trial recruitment, and generated real-world evidence. Synthesizing EHRs across institutions enables large-scale, generalizable studies that capture rare diseases and population diversity, but remains hindered by the heterogeneity of medical codes, institution-specific terminologies, and the absence of standardized data structures. These barriers limit the interpretability, comparability, and scalability of EHR-based analyses, underscoring the need for robust methods to harmonize and extract meaningful insights from distributed, heterogeneous data. To address this, we propose MASH (Multi-source Automated Structured Hierarchy), a fully automated framework that aligns medical codes across institutions using neural optimal transport and constructs hierarchical graphs with learned hyperbolic embeddings. During training, MASH integrates information from pre-trained language models, co-occurrence patterns, textual descriptions, and supervised labels to capture semantic and hierarchical relationships among medical concepts more effectively. Applied to real-world EHR data, including diagnosis, medication, and laboratory codes, MASH produces interpretable hierarchical graphs that facilitate the navigation and understanding of heterogeneous clinical data. Notably, it generates the first automated hierarchies for unstructured local laboratory codes, establishing foundational references for downstream applications.

Ссылки и действия