How to make Medical AI Systems safer? Simulating Vulnerabilities, and Threats in Multimodal Medical RAG System

2508.17215v1 cs.LG, cs.AI, cs.CR 2025-08-27
Авторы:

Kaiwen Zuo, Zelin Liu, Raman Dutt, Ziyang Wang, Zhongtian Sun, Yeming Wang, Fan Mo, Pietro Liò

Резюме на русском

## Контекст Область исследования основывается на развитии Large Vision-Language Models (LVLMs), которые используются в сфере медицинских AI-систем для повышения точности информационной базы с помощью внешней клинической реализации визуально-текстовой реализации. Несмотря на выгоды, эта зависимость создает значительный угрозный потенциал. Одной из основных проблем является нехватка соответствующих методов для обнаружения и анализа уязвимостей в таких системах. Это мотивирует разработку новых подходов к идентификации угроз в медицинских RAG-системах. Например, подобные системы часто используются для работы с клиническими изображениями и отчетами, где необходимо многоуровневый анализ информации. Однако, потенциальные уязвимости в таких системах могут привести к ошибкам, что является критическим для области медицины, где точность критична. Таким образом, необходимо разработка безопасных методов, позволяющих оценивать их работу и улучшать показатели надежности. ## Метод Методология, предложенная в статье, основывается на создании систематического подхода к оценке уязвимостей в медицинских RAG-системах. Авторы предлагают MedThreatRAG, мультимодальный подход, который использует атаки с поддельными изображениями и текстами для проверки системы. Технический подход включает в себя создание симулированной среды, которая воспроизводит реальные условия, где клинические системы позволяют регулярно обновлять свои базы знаний. Одной из ключевых инноваций является Cross-Modal Conflict Injection (CMCI), который вводит несовместимые семантические элементы между изображениями и их отчетами. Это способствует разрушению сквозного анализа и обнаружения, оставаясь достаточно незаметным для стандартных фильтров. Кроме того, в рамках исследования также рассматриваются базовые варианты атак для полноты изображения. Метод позволяет эффективно оценивать уязвимости и разрабатывать подходы к безопасному развитию таких систем. ## Результаты В работе проводились эксперименты на двух клинических наборах данных: IU-Xray и MIMIC-CXR. Оценивались показатели F1-меры для ответов и F1-меры LLaVA-Med-1.5. Результаты показали, что MedThreatRAG снижает показатели F1-меры ответов на до 27.66% и показатели LLaVA-Med-1.5 до 51.36%. Эти результаты демонстрируют существенное разрушение работы системы, когда в ней встраиваются поддельные изображения и тексты. Это подтверждает значительную уязвимость медицинских RAG-систем, даже при небольших внесениях поддельной информации. Эти результаты указывают на необходимость применения более строгих методов подтверждения точности и безопасности таких с

Abstract

Large Vision-Language Models (LVLMs) augmented with Retrieval-Augmented Generation (RAG) are increasingly employed in medical AI to enhance factual grounding through external clinical image-text retrieval. However, this reliance creates a significant attack surface. We propose MedThreatRAG, a novel multimodal poisoning framework that systematically probes vulnerabilities in medical RAG systems by injecting adversarial image-text pairs. A key innovation of our approach is the construction of a simulated semi-open attack environment, mimicking real-world medical systems that permit periodic knowledge base updates via user or pipeline contributions. Within this setting, we introduce and emphasize Cross-Modal Conflict Injection (CMCI), which embeds subtle semantic contradictions between medical images and their paired reports. These mismatches degrade retrieval and generation by disrupting cross-modal alignment while remaining sufficiently plausible to evade conventional filters. While basic textual and visual attacks are included for completeness, CMCI demonstrates the most severe degradation. Evaluations on IU-Xray and MIMIC-CXR QA tasks show that MedThreatRAG reduces answer F1 scores by up to 27.66% and lowers LLaVA-Med-1.5 F1 rates to as low as 51.36%. Our findings expose fundamental security gaps in clinical RAG systems and highlight the urgent need for threat-aware design and robust multimodal consistency checks. Finally, we conclude with a concise set of guidelines to inform the safe development of future multimodal medical RAG systems.

Ссылки и действия