CLAPS: A CLIP-Unified Auto-Prompt Segmentation for Multi-Modal Retinal Imaging
2509.08618v1
cs.CV, I.4.6
2025-09-11
Авторы:
Zhihao Zhao, Yinzheng Zhao, Junjie Yang, Xiangtong Yao, Quanmin Liang, Shahrooz Faghihroohi, Kai Huang, Nassir Navab, M. Ali Nasseri
Резюме на русском
## Контекст
В последние годы применение фундаментальных моделей в медицинской имеджинге набирает обороты, особенно в области рационального диагностирования, где точный поиск сегментации ключевой для конкретизации диагноза. Однако, существующие методы сталкиваются с рядом значительных ограничений. В частности, они страдают от модальной неоднозначности в текстовых описаниях заболеваний, требуют ручных пробуждений для работы на основе SAM-технологий и не имеют универсального фреймворка, применимого к разным задачам и модальностям. Наша цель — выработать новую методологию, которая гармонизирует эти аспекты, обеспечивая доступ к широкой и одновременно точной сегментации в клинических условиях.
## Метод
Мы предлагаем \CLAPS (CLIP-unified Auto-Prompt Segmentation), новый подход, который унифицирует итерационные процессы поиска сегментации, используя мощь моделей CLIP. В центре нашего подхода — процедура предобучения изображений на большом многомодальном наборе данных. Для преодоления недостатка данных и устранения несбалансированности распределения мы используем специальные текстовые признаки, называемые "модальными сигнатурами", для каждого типа изображений. Для автоматического выделения локальных лезионов мы используем GroundingDINO, который формирует пространственные области с пробуждением. Наконец, эти признаки и модальные сигнатуры объединяются с CLIP-оболочкой для управления SAM, обеспечивая автоматическое и точное выделение сегментации.
## Результаты
Мы проверили нашу модель на 12 различных наборах данных, охватывающих 11 ключевых модальностей в клинической практике. За счет универсального фреймворка, \CLAPS показал значительный показатель общей точности и вытеснил бенчмарки в большинстве метрик. Эксперименты показали, что наш подход совпадает в качестве с специализированными моделями, предназначенными для конкретных задач, что демонстрирует гибкость и широту применения нашего подхода.
## Значимость
Наш подход может использоваться в различных клинических задачах, включая сегментацию глазных заболеваний, в том числе с различными модальностями восприятия. Он предлагает значительные преимущества, такие как уменьшение времени труда врача и улучшение точности диагностики. Мы считаем, что наш метод может быть применен в широком спектре задач, от первичной диагностики до научного исследования, и становится одним из первых универсальных моделей для медицинских изображений.
## Выводы
Мы предложили новую методологию, которая решает ключевые проблемы в поиске сегментации в медицинских изображениях. Будущие исследования будут направлены на улу
Abstract
Recent advancements in foundation models, such as the Segment Anything Model
(SAM), have significantly impacted medical image segmentation, especially in
retinal imaging, where precise segmentation is vital for diagnosis. Despite
this progress, current methods face critical challenges: 1) modality ambiguity
in textual disease descriptions, 2) a continued reliance on manual prompting
for SAM-based workflows, and 3) a lack of a unified framework, with most
methods being modality- and task-specific. To overcome these hurdles, we
propose CLIP-unified Auto-Prompt Segmentation (\CLAPS), a novel method for
unified segmentation across diverse tasks and modalities in retinal imaging.
Our approach begins by pre-training a CLIP-based image encoder on a large,
multi-modal retinal dataset to handle data scarcity and distribution imbalance.
We then leverage GroundingDINO to automatically generate spatial bounding box
prompts by detecting local lesions. To unify tasks and resolve ambiguity, we
use text prompts enhanced with a unique "modality signature" for each imaging
modality. Ultimately, these automated textual and spatial prompts guide SAM to
execute precise segmentation, creating a fully automated and unified pipeline.
Extensive experiments on 12 diverse datasets across 11 critical segmentation
categories show that CLAPS achieves performance on par with specialized expert
models while surpassing existing benchmarks across most metrics, demonstrating
its broad generalizability as a foundation model.
Ссылки и действия
Дополнительные ресурсы: