EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol

2509.15957v1 cs.AI, cs.CL, cs.HC, cs.IR 2025-09-23
Авторы:

Kanato Masayoshi, Masahiro Hashimoto, Ryoichi Yokoyama, Naoki Toda, Yoshifumi Uwamino, Shogo Fukuda, Ho Namkoong, Masahiro Jinzaki

Резюме на русском

#### Контекст Большой интерес к использованию технологий генерирующего искусственного интеллекта (ГИ) в медицине вызван потенциалом этих систем в повышении качества помощи пациентам и улучшению работы медицинских учреждений. Однако, внедрение ГИ в системы медицинских учреждений сталкивается с рядом проблем, в том числе ограниченным доступом к электронным медицинским рекордам (ЭМР). Модель контекста протокола (MCP) предлагает решение этой проблемы, обеспечивая интеграцию между ГИ и внешними системами для безопасного и эффективного доступа к данным. Точность и надёжность ГИ при использовании ЭМР в реальных условиях медицинской практики являются ключевыми вопросами, которые необходимо раскрыть. #### Метод Разработанное фреймворком EHR-MCP, используя сервис GPT-4.1 через LangGraph ReAct, позволяет обеспечить интеграцию с ЭМР. Шесть задач, отражающих практические ситуации команды инфекционного контроля (ICT), были разработаны для эксперимента. Для этих задач были использованы данные 8 пациентов, обсуждавшихся на совещаниях ICT. Для оценки точности и надёжности работы системы были сравниты результаты с клиническими золотыми стандартами, полученными врачами. #### Результаты EHR-MCP продемонстрировала высокую точность при выполнении простых задач, достигнув близкого к идеальному результату. Однако, в случае сложных задач, требующих подсчётов зависящих от времени, точность системы была ниже. Ошибки в основном происходили из-за неправильных аргументов и неправильного интерпретирования результатов. Длинные ответы, рискующие выйти за пределы контекстного окна, также могут стать проблемой. Несмотря на это, результаты EHR-MCP показали надежность и эффективность ГИ при использовании ЭМР в реальных условиях. #### Значимость Протокол EHR-MCP может быть применён в различных сферах клинической практики, включая диагностику, наблюдение, информирование и решение клинических вопросов. Он обеспечивает безопасный доступ к данным и обеспечивает надёжные ответы на клинические запросы. Этот подход может стать основой для развития ГИ в медицинских учреждениях, улучшая качество услуг и эффективность работы. #### Выводы Исследование подтверждает, что ГИ могут эффективно использоваться для доступа к клиническим данным в ЭМР, особенно при выполнении простых задач. Однако, для обеспечения полного интеграции ГИ в медицинскую практику необходимо развить её в сторону более сложных задач, включая рассуждения и генерацию клинических отчётов. Будущие исследования должны ориентироваться на э

Abstract

Background: Large language models (LLMs) show promise in medicine, but their deployment in hospitals is limited by restricted access to electronic health record (EHR) systems. The Model Context Protocol (MCP) enables integration between LLMs and external tools. Objective: To evaluate whether an LLM connected to an EHR database via MCP can autonomously retrieve clinically relevant information in a real hospital setting. Methods: We developed EHR-MCP, a framework of custom MCP tools integrated with the hospital EHR database, and used GPT-4.1 through a LangGraph ReAct agent to interact with it. Six tasks were tested, derived from use cases of the infection control team (ICT). Eight patients discussed at ICT conferences were retrospectively analyzed. Agreement with physician-generated gold standards was measured. Results: The LLM consistently selected and executed the correct MCP tools. Except for two tasks, all tasks achieved near-perfect accuracy. Performance was lower in the complex task requiring time-dependent calculations. Most errors arose from incorrect arguments or misinterpretation of tool results. Responses from EHR-MCP were reliable, though long and repetitive data risked exceeding the context window. Conclusions: LLMs can retrieve clinical data from an EHR via MCP tools in a real hospital setting, achieving near-perfect performance in simple tasks while highlighting challenges in complex ones. EHR-MCP provides an infrastructure for secure, consistent data access and may serve as a foundation for hospital AI agents. Future work should extend beyond retrieval to reasoning, generation, and clinical impact assessment, paving the way for effective integration of generative AI into clinical practice.

Ссылки и действия