VLSM-Ensemble: Ensembling CLIP-based Vision-Language Models for Enhanced Medical Image Segmentation

2509.05154v1 eess.IV, cs.CV 2025-09-09
Авторы:

Julia Dietlmeier, Oluwabukola Grace Adegboro, Vayangi Ganepola, Claudia Mazo, Noel E. O'Connor

Резюме на русском

#### Контекст Визуально-языковые модели (Vision-Language Models, VLM) и их применение к задачам сегментации изображений открывают большой потенциал для получения точных и интерпретируемых результатов. Однако существующие реализации, основанные на CLIP и BiomedCLIP, всё ещё отстают по производительности по сравнению с более высокоуровневыми архитектурами, такими как CRIS. Это делает сложной проблему повышения точности и обоснованности результатов. В данной работе мы решаем эту проблему, показав, как можно создавать пакеты VLM-систем (VLSM-Ensemble) с низкой сложностью CNN, для повышения эффективности. Наша цель — показать, что энсемблирование может стать эффективным способом для улучшения показателей сегментации медицинских изображений. #### Метод Мы предлагаем методологию, которая включает в себя создание пакета VLSM-Ensemble, состоящего из нескольких VLM-моделей (в частности, BiomedCLIPSeg) и низкоуровневого CNN. Этот пакет оптимизируется для улучшения точности сегментации медицинских изображений. Архитектура включает в себя несколько слоёв, в которых каждая модель VLM принимает входное изображение и выполняет свою сегментацию. Затем эти результаты объединяются с помощью CNN, который выполняет финальную сегментацию, учитывая вклад каждой модели. Мы использовали данные из различных больничных и небольничных наборов данных, включая BKAI-полип, для экспериментов. #### Результаты Мы провели эксперименты, сравнив нашу VLSM-Ensemble с CRIS, одной из самых высокоуровневых архитектур. На BKAI-полип-датсете, наша модель показала увеличение Dice-score на 6.3% в сравнении с BiomedCLIPSeg. На других датасетах рост Dice-score составил от 1% до 6%. Это указывает на то, что энсемблирование может быть эффективным на некоторых датасетах, но может и не сработать на других. Данные показывают, что различия в показателях сегментации могут быть связаны с характером данных и тонкостями сегментации. #### Значимость Предлагаемая модель может быть применена в различных областях медицины, где необходима точная сегментация медицинских изображений, включая радиологию, нейрологию и другие. Одним из основных преимуществ является увеличение точности сегментации в сравнении с отдельными моделями VLM. Эта модель также может быть применена для улучшения понимания интерпретации результатов, так как она использует несколько моделей для объединения результатов. Это может быть полезно для разработки более надёжных инструментов для клинического применения. #### Выводы Мы показали, что энсемблирование VLSM может значительно улучшить Dice-score в сегментации медицинских изображений. Однако результаты на разных датасетах отличают

Abstract

Vision-language models and their adaptations to image segmentation tasks present enormous potential for producing highly accurate and interpretable results. However, implementations based on CLIP and BiomedCLIP are still lagging behind more sophisticated architectures such as CRIS. In this work, instead of focusing on text prompt engineering as is the norm, we attempt to narrow this gap by showing how to ensemble vision-language segmentation models (VLSMs) with a low-complexity CNN. By doing so, we achieve a significant Dice score improvement of 6.3% on the BKAI polyp dataset using the ensembled BiomedCLIPSeg, while other datasets exhibit gains ranging from 1% to 6%. Furthermore, we provide initial results on additional four radiology and non-radiology datasets. We conclude that ensembling works differently across these datasets (from outperforming to underperforming the CRIS model), indicating a topic for future investigation by the community. The code is available at https://github.com/juliadietlmeier/VLSM-Ensemble.

Ссылки и действия