Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation
2508.05008v1
cs.CV
2025-08-09
Авторы:
Xusheng Liang, Lihua Zhou, Nianxin Li, Miao Xu, Ziyang Song, Dong Yi, Jinlin Wu, Hongbin Liu, Jiebo Luo, Zhen Lei
Резюме на русском
**Резюме**
В задачах медицинской интерпретации изображений систем на основе видения и языка (Vision-Language Models, VLMs), таких как CLIP, часто сталкиваются с проблемой низкой общеуниверсальности в силу высокой вариабельности медицинских данных. Эти данные подвержены доменным переносовым сдвигам из-за различий в оборудовании, процедурах и режимах изображения. Для устранения этой проблемы предложено развитие фреймворка Multimodal Causal-Driven Representation Learning (MCDRL), который объединяет подход к рассуждению с принципами VLMs. MCDRL включает два этапа: 1) идентификацию кандидатских областей лезионных заболеваний с помощью CLIP и формирования словаря конфундеров с помощью текстовых запросов, а 2) использования казуальной модификации сети для исключения влияния конфундеров, сохранив ключевую анатомическую информацию. Эксперименты показали, что MCDRL превосходит конкурентные методы по точности и генерализуемости, делая его эффективным решением для улучшения общеуниверсальной сегментации в области медицинского видения.
Abstract
Vision-Language Models (VLMs), such as CLIP, have demonstrated remarkable
zero-shot capabilities in various computer vision tasks. However, their
application to medical imaging remains challenging due to the high variability
and complexity of medical data. Specifically, medical images often exhibit
significant domain shifts caused by various confounders, including equipment
differences, procedure artifacts, and imaging modes, which can lead to poor
generalization when models are applied to unseen domains. To address this
limitation, we propose Multimodal Causal-Driven Representation Learning
(MCDRL), a novel framework that integrates causal inference with the VLM to
tackle domain generalization in medical image segmentation. MCDRL is
implemented in two steps: first, it leverages CLIP's cross-modal capabilities
to identify candidate lesion regions and construct a confounder dictionary
through text prompts, specifically designed to represent domain-specific
variations; second, it trains a causal intervention network that utilizes this
dictionary to identify and eliminate the influence of these domain-specific
variations while preserving the anatomical structural information critical for
segmentation tasks. Extensive experiments demonstrate that MCDRL consistently
outperforms competing methods, yielding superior segmentation accuracy and
exhibiting robust generalizability.
Ссылки и действия
Дополнительные ресурсы: