PEHRT: A Common Pipeline for Harmonizing Electronic Health Record data for Translational Research

2509.08553v1 stat.ML, cs.LG 2025-09-12
Авторы:

Jessica Gronsbell, Vidul Ayakulangara Panickan, Chris Lin, Thomas Charlon, Chuan Hong, Doudou Zhou, Linshanshan Wang, Jianhui Gao, Shirley Zhou, Yuan Tian, Yaqi Shi, Ziming Gan, Tianxi Cai

Резюме на русском

## Контекст Интегративный анализ многоинституциональных данных электронных медицинских карт (EHR) позволяет улучшить надежность и обобщаемость исследований в области трансляционной медицины. Это достигается благодаря работе с более крупными и разнообразными когортами пациентов, а также использованию различных семантических моделей. Однако, слияние EHR-данных подразумевает сложности, такие как разнообразие форматов, семантические различия и вопросы конфиденциальности. Для решения этих проблем предлагается $\textit{PEHRT}$ — стандартизированная пайплайн для гармонизации EHR-данных. Она распространяется на различные задачи, такие как обработка данных и создание моделей для исследований. ## Метод PEHRT состоит из двух основных модулей: (1) нормализации данных и (2) обучения моделей. Нормализация данных включает в себя маппинг EHR-данных на стандартные системы кодирования, что позволяет гармонизировать данные подходящим образом. Обучение моделей заключается в использовании машинного обучения для генерации информативных данных, готовых к использованию в исследованиях. Эта пайплайн является моделью-агностической и позволяет выполняться в разных учреждениях без необходимости передачи отдельных данных. Метод разработан на основе практических исследований и предоставляется как открытый исходный код со вспомогательными материалами. ## Результаты На основе PEHRT проводились различные эксперименты, включая гармонизацию данных из различных систем здравоохранения. Данные были маппяны на стандартные системы кодирования, а затем использованы для генерации моделей, готовых к использованию в исследованиях. Эксперименты показали, что PEHRT позволяет эффективно гармонизировать данные и создавать модели, которые могут быть использованы для распределенного интегративного анализа. ## Значимость PEHRT может быть применен в различных областях трансляционных исследований, включая улучшение надежности исследований, расширение крупных когорт, а также обработку различных моделей данных. Он предоставляет преимущества в виде унификации подходов и снижения затрат на создание исследовательских данных. PEHRT может способствовать развитию новых исследований в области медицины, позволяя использовать большое количество данных в различных задачах. ## Выводы PEHRT представляет собой эффективную пайплайн для гармонизации EHR-данных, которая может использоваться в различных областях медицины. В будущем будут проводиться дополнительные исследования для расширения функций и применения PEHRT в различных ситуациях.

Abstract

Integrative analysis of multi-institutional Electronic Health Record (EHR) data enhances the reliability and generalizability of translational research by leveraging larger, more diverse patient cohorts and incorporating multiple data modalities. However, harmonizing EHR data across institutions poses major challenges due to data heterogeneity, semantic differences, and privacy concerns. To address these challenges, we introduce $\textit{PEHRT}$, a standardized pipeline for efficient EHR data harmonization consisting of two core modules: (1) data pre-processing and (2) representation learning. PEHRT maps EHR data to standard coding systems and uses advanced machine learning to generate research-ready datasets without requiring individual-level data sharing. Our pipeline is also data model agnostic and designed for streamlined execution across institutions based on our extensive real-world experience. We provide a complete suite of open source software, accompanied by a user-friendly tutorial, and demonstrate the utility of PEHRT in a variety of tasks using data from diverse healthcare systems.

Ссылки и действия