## Контекст
В последние годы применение фундаментальных моделей в медицинской имеджинге набирает обороты, особенно в области рационального диагностирования, где точный поиск сегментации ключевой для конкретизации диагноза. Однако, существующие методы сталкиваются с рядом значительных ограничений. В частности, они страдают от модальной неоднозначности в текстовых описаниях заболеваний, требуют ручных пробуждений для работы на основе SAM-технологий и не имеют универсального фреймворка, применимого к разным задачам и модальностям. Наша цель — выработать новую методологию, которая гармонизирует эти аспекты, обеспечивая доступ к широкой и одновременно точной сегментации в клинических условиях.
## Метод
Мы предлагаем \CLAPS (CLIP-unified Auto-Prompt Segmentation), новый подход, который унифицирует итерационные процессы поиска сегментации, используя мощь моделей CLIP. В центре нашего подхода — процедура предобучения изображений на большом многомодальном наборе данных. Для преодоления недостатка данных и устранения несбалансированности распределения мы используем специальные текстовые признаки, называемые "модальными сигнатурами", для каждого типа изображений. Для автоматического выделения локальных лезионов мы используем GroundingDINO, который формирует пространственные области с пробуждением. Наконец, эти признаки и модальные сигнатуры объединяются с CLIP-оболочкой для управления SAM, обеспечивая автоматическое и точное выделение сегментации.
## Результаты
Мы проверили нашу модель на 12 различных наборах данных, охватывающих 11 ключевых модальностей в клинической практике. За счет универсального фреймворка, \CLAPS показал значительный показатель общей точности и вытеснил бенчмарки в большинстве метрик. Эксперименты показали, что наш подход совпадает в качестве с специализированными моделями, предназначенными для конкретных задач, что демонстрирует гибкость и широту применения нашего подхода.
## Значимость
Наш подход может использоваться в различных клинических задачах, включая сегментацию глазных заболеваний, в том числе с различными модальностями восприятия. Он предлагает значительные преимущества, такие как уменьшение времени труда врача и улучшение точности диагностики. Мы считаем, что наш метод может быть применен в широком спектре задач, от первичной диагностики до научного исследования, и становится одним из первых универсальных моделей для медицинских изображений.
## Выводы
Мы предложили новую методологию, которая решает ключевые проблемы в поиске сегментации в медицинских изображениях. Будущие исследования будут направлены на улу