How to make Medical AI Systems safer? Simulating Vulnerabilities, and Threats in Multimodal Medical RAG System
2508.17215v1
cs.LG, cs.AI, cs.CR
2025-08-27
Авторы:
Kaiwen Zuo, Zelin Liu, Raman Dutt, Ziyang Wang, Zhongtian Sun, Yeming Wang, Fan Mo, Pietro Liò
Резюме на русском
## Контекст
Область исследования основывается на развитии Large Vision-Language Models (LVLMs), которые используются в сфере медицинских AI-систем для повышения точности информационной базы с помощью внешней клинической реализации визуально-текстовой реализации. Несмотря на выгоды, эта зависимость создает значительный угрозный потенциал. Одной из основных проблем является нехватка соответствующих методов для обнаружения и анализа уязвимостей в таких системах. Это мотивирует разработку новых подходов к идентификации угроз в медицинских RAG-системах. Например, подобные системы часто используются для работы с клиническими изображениями и отчетами, где необходимо многоуровневый анализ информации. Однако, потенциальные уязвимости в таких системах могут привести к ошибкам, что является критическим для области медицины, где точность критична. Таким образом, необходимо разработка безопасных методов, позволяющих оценивать их работу и улучшать показатели надежности.
## Метод
Методология, предложенная в статье, основывается на создании систематического подхода к оценке уязвимостей в медицинских RAG-системах. Авторы предлагают MedThreatRAG, мультимодальный подход, который использует атаки с поддельными изображениями и текстами для проверки системы. Технический подход включает в себя создание симулированной среды, которая воспроизводит реальные условия, где клинические системы позволяют регулярно обновлять свои базы знаний. Одной из ключевых инноваций является Cross-Modal Conflict Injection (CMCI), который вводит несовместимые семантические элементы между изображениями и их отчетами. Это способствует разрушению сквозного анализа и обнаружения, оставаясь достаточно незаметным для стандартных фильтров. Кроме того, в рамках исследования также рассматриваются базовые варианты атак для полноты изображения. Метод позволяет эффективно оценивать уязвимости и разрабатывать подходы к безопасному развитию таких систем.
## Результаты
В работе проводились эксперименты на двух клинических наборах данных: IU-Xray и MIMIC-CXR. Оценивались показатели F1-меры для ответов и F1-меры LLaVA-Med-1.5. Результаты показали, что MedThreatRAG снижает показатели F1-меры ответов на до 27.66% и показатели LLaVA-Med-1.5 до 51.36%. Эти результаты демонстрируют существенное разрушение работы системы, когда в ней встраиваются поддельные изображения и тексты. Это подтверждает значительную уязвимость медицинских RAG-систем, даже при небольших внесениях поддельной информации. Эти результаты указывают на необходимость применения более строгих методов подтверждения точности и безопасности таких с
Abstract
Large Vision-Language Models (LVLMs) augmented with Retrieval-Augmented
Generation (RAG) are increasingly employed in medical AI to enhance factual
grounding through external clinical image-text retrieval. However, this
reliance creates a significant attack surface. We propose MedThreatRAG, a novel
multimodal poisoning framework that systematically probes vulnerabilities in
medical RAG systems by injecting adversarial image-text pairs. A key innovation
of our approach is the construction of a simulated semi-open attack
environment, mimicking real-world medical systems that permit periodic
knowledge base updates via user or pipeline contributions. Within this setting,
we introduce and emphasize Cross-Modal Conflict Injection (CMCI), which embeds
subtle semantic contradictions between medical images and their paired reports.
These mismatches degrade retrieval and generation by disrupting cross-modal
alignment while remaining sufficiently plausible to evade conventional filters.
While basic textual and visual attacks are included for completeness, CMCI
demonstrates the most severe degradation. Evaluations on IU-Xray and MIMIC-CXR
QA tasks show that MedThreatRAG reduces answer F1 scores by up to 27.66% and
lowers LLaVA-Med-1.5 F1 rates to as low as 51.36%. Our findings expose
fundamental security gaps in clinical RAG systems and highlight the urgent need
for threat-aware design and robust multimodal consistency checks. Finally, we
conclude with a concise set of guidelines to inform the safe development of
future multimodal medical RAG systems.
Ссылки и действия
Дополнительные ресурсы: