Automated Hierarchical Graph Construction for Multi-source Electronic Health Records
2509.06576v1
stat.ML, cs.LG
2025-09-10
Авторы:
Yinjie Wang, Doudou Zhou, Yue Liu, Junwei Lu, Tianxi Cai
Резюме на русском
## Контекст
Современное здравоохранение сильно полагается на электронные медицинские рекорды (Electronic Health Records, EHRs), которые содержат разнообразные клинические данные, включая диагнозы, лекарственные препараты и лабораторные исследования. Эти данные имеют большое значение для трансляционных исследований, поддержки клинических исследований и получения реального мирового опыта. Однако синтез данных EHR из разных институтов сталкивается с тем, что медицинские коды и терминологии имеют индивидуальные особенности для каждого заведения, а также не существует единого стандарта для структурирования EHR. Эти проблемы снижают понимание, сравнимость и масштабируемость EHR-данных, что ограничивает мощность анализа. Необходимо разработать методы, которые позволят гармонизировать и извлекать смысловые отношения из разных источников клинических данных.
## Метод
Мы предлагаем MASH (Multi-source Automated Structured Hierarchy), полностью автоматизированную систему, которая строит иерархические графы на основе нейронного способа оптимального транспорта и использует гиперболические входящие преобразования для построения графов. В процессе тренировки MASH использует предварительно обученные языковые модели, модели основанные на сочетаниях встречаемости, текстовые описания и заданные метки, чтобы лучше ловить семантические и иерархические отношения в медицинских понятиях. Это позволяет ему точно сопоставлять медицинские коды между различными заведениями и строить интерпретируемые иерархические графы для более эффективного анализа клинических данных.
## Результаты
Мы применили MASH к реальным данным EHR, включая диагнозы, лекарства и лабораторные результаты. Это позволило построить иерархические графы, которые упростили процесс разбора и понимания разнообразных клинических данных. Особенно заметно было это в случае неструктурированных локальных лабораторных кодов, для которых MASH сформировал первые автоматические иерархии, создав новые стандарты для последующих исследований в этой области.
## Значимость
Разработанный подход может быть применен в различных областях здравоохранения, включая генерацию реального мирового опыта, оптимизацию клинических исследований и преодоление барьеров, связанных с хранением данных. Он предоставляет новый способ для понимания разнообразных и распределенных клинических данных, что может способствовать повышению качества здравоохранения и более точного диагностирования. Будущие исследования будут сконцентрированы на улучшении точности и масштабируемости этого подхода для более широкого применения в различных медицинских задачах.
## Выво
Abstract
Electronic Health Records (EHRs), comprising diverse clinical data such as
diagnoses, medications, and laboratory results, hold great promise for
translational research. EHR-derived data have advanced disease prevention,
improved clinical trial recruitment, and generated real-world evidence.
Synthesizing EHRs across institutions enables large-scale, generalizable
studies that capture rare diseases and population diversity, but remains
hindered by the heterogeneity of medical codes, institution-specific
terminologies, and the absence of standardized data structures. These barriers
limit the interpretability, comparability, and scalability of EHR-based
analyses, underscoring the need for robust methods to harmonize and extract
meaningful insights from distributed, heterogeneous data. To address this, we
propose MASH (Multi-source Automated Structured Hierarchy), a fully automated
framework that aligns medical codes across institutions using neural optimal
transport and constructs hierarchical graphs with learned hyperbolic
embeddings. During training, MASH integrates information from pre-trained
language models, co-occurrence patterns, textual descriptions, and supervised
labels to capture semantic and hierarchical relationships among medical
concepts more effectively. Applied to real-world EHR data, including diagnosis,
medication, and laboratory codes, MASH produces interpretable hierarchical
graphs that facilitate the navigation and understanding of heterogeneous
clinical data. Notably, it generates the first automated hierarchies for
unstructured local laboratory codes, establishing foundational references for
downstream applications.
Ссылки и действия
Дополнительные ресурсы: