MedFoundationHub: A Lightweight and Secure Toolkit for Deploying Medical Vision Language Foundation Models

2508.20345v1 cs.CV, cs.HC 2025-08-30
Авторы:

Xiao Li, Yanfan Zhu, Ruining Deng, Wei-Qi Wei, Yu Wang, Shilin Zhao, Yaohong Wang, Haichun Yang, Yuankai Huo

Резюме на русском

## Контекст Настоящие достижения в области медицинских визуально-языковых моделей (VLMs) открывают возможности для различных клинических применений, включая автоматическое составление отчетов, копилоты для врачей и оценку неопределенности. Однако эти модели сопряжены с серьезными проблемами безопасности, такими как риск раскрытия Защищенных Данных Здоровья (ПДЗ), утечки данных и уязвимость к кибератакам. Эти опасности особенно критичны в средах государственных и приватных медицинских учреждений. Даже при использовании моделей для исследовательских целей или вне клинических применений, организации должны принять меры к снижению рисков. Целью данного исследования является разработка инструментария, который обеспечит доступ к VLMs для неэкспертов в медицине, обеспечит простой деплоймент моделей и обеспечит безопасность при интерпретации данных. ## Метод Разработанная платформа, MedFoundationHub, представляет собой графический интерфейс (GUI), который позволяет неэкспертным пользователям, таким как врачи, выбирать и использовать множество моделей без необходимости в глубоких знаниях программирования. Для инженеров, MedFoundationHub предоставляет среду для эффективного деплоймента VLMs с помощью простого "плаги-энд-плей" подхода, с интеграцией моделей от Hugging Face. Высокая безопасность и доступность обеспечивается через использование Docker, что позволяет развернуть модели на оффлайн локальных рабочих станциях с одним NVIDIA A6000 GPU. Это решение позволяет использовать модели в условиях обычного оборудования академических исследовательских лабораторий, не требуя высоких ресурсов. ## Результаты Платформа была протестирована путем взаимодействия с семью современными VLMs, включая Google-MedGemma3-4B, Qwen2-VL-7B-Instruct, Qwen2.5-VL-7B-Instruct, LLaVA-1.5-7B и LLaVA-1.5-13B. Экспертным судебом состоялись 1015 оценок, проведенных специалистами по патологии. Оценки были проведены на двух клинических наборах данных: случаи рака колона и почек. Результаты показали, что модели имеют существенные ограничения, такие как неточные ответы, неполная разъясняющая логика и непоследовательность терминов в области патологии. ## Значимость MedFoundationHub может быть применен в различных сферах, включая клинические приложения, обучение новым врачам и исследовательские задачи. Он обеспечивает безопасность и защиту данных, позволяя развертывать модели в безопасной среде. Преимуществом является удобство использования для неэкспертных пользователей благодаря интуитивно понятному интерфейсу, а также возможность использования мощных VLMs без

Abstract

Recent advances in medical vision-language models (VLMs) open up remarkable opportunities for clinical applications such as automated report generation, copilots for physicians, and uncertainty quantification. However, despite their promise, medical VLMs introduce serious security concerns, most notably risks of Protected Health Information (PHI) exposure, data leakage, and vulnerability to cyberthreats - which are especially critical in hospital environments. Even when adopted for research or non-clinical purposes, healthcare organizations must exercise caution and implement safeguards. To address these challenges, we present MedFoundationHub, a graphical user interface (GUI) toolkit that: (1) enables physicians to manually select and use different models without programming expertise, (2) supports engineers in efficiently deploying medical VLMs in a plug-and-play fashion, with seamless integration of Hugging Face open-source models, and (3) ensures privacy-preserving inference through Docker-orchestrated, operating system agnostic deployment. MedFoundationHub requires only an offline local workstation equipped with a single NVIDIA A6000 GPU, making it both secure and accessible within the typical resources of academic research labs. To evaluate current capabilities, we engaged board-certified pathologists to deploy and assess five state-of-the-art VLMs (Google-MedGemma3-4B, Qwen2-VL-7B-Instruct, Qwen2.5-VL-7B-Instruct, and LLaVA-1.5-7B/13B). Expert evaluation covered colon cases and renal cases, yielding 1015 clinician-model scoring events. These assessments revealed recurring limitations, including off-target answers, vague reasoning, and inconsistent pathology terminology.

Ссылки и действия