Retrieval-Augmented VLMs for Multimodal Melanoma Diagnosis

2509.08338v1 cs.CV, cs.AI, cs.LG 2025-09-11
Авторы:

Jihyun Moon, Charmgil Hong

Резюме на русском

## Контекст Диагностика малыничного меланома является критически важным аспектом медицинского ведения больных. Несмотря на то, что современные методы, такие как глубокие нейронные сети, демонстрируют высокую точность в анализе дермоскопических изображений, они часто игнорируют важность клинических метаданных. Особенно это касается визуальных языковых моделей (VLMs), которые обычно обучаются на широкой общедоступной базе данных, а не на специальной медицинской информации. Этот недостаток может привести к неточностям и неточностям в диагностике. В этом исследовании мы стремимся создать более перспективное решение, которое бы основывалось на взаимодействии между дермоскопическими изображениями и клиническими метаданными. ## Метод Мы предлагаем фреймворк, основанный на восстановлении информации, сочетающий в себе визуальные модели и языковые модели. Наша технология включает в себя следующие этапы: сбор и верификация данных, визуальный анализ изображений и определение похожих клинических случаев. Мы разрабатываем специальную архитектуру модели, которая использует не только изображения, но также текстовые метаданные, такие как возраст, пол и история болезни пациента. Важной особенностью является возможность поиска похожих случаев в базе данных, что дает модели возможность более точного диагностирования и учета клинических особенностей. ## Результаты Мы провести различные эксперименты на наборе данных, содержащих дермоскопические изображения и связанные с ними метаданные. Наши результаты показали, что восстановление-поддержка VLMs существенно повышает точность диагностики и способствует устранению ошибок, связанных с грубой обобщенностью обучающей базы данных. Мы сравнивали нашу модель с традиционными методами, такими как стандартные глубокие нейронные сети и VLMs, и продемонстрировали, что наш подход показывает значительное превосходство в классификации и восстановлении ошибочных диагнозов. ## Значимость Предложенный подход может быть применен в медицинской практике для улучшения точности диагностики и снижения риска значительных ошибок. Он позволяет врачам использовать визуальную и текстовую информацию вместе, чтобы получать более информативные результаты. Этот подход может быть применен не только к диагностике малыничного меланома, но и к другим заболеваниям, для которых клинические метаданные играют ключевую роль. Наше решение также может стать основой для разработки будущих моделей, которые будут учитывать более широкий круг клинических факторов. ## Выводы Мы до

Abstract

Accurate and early diagnosis of malignant melanoma is critical for improving patient outcomes. While convolutional neural networks (CNNs) have shown promise in dermoscopic image analysis, they often neglect clinical metadata and require extensive preprocessing. Vision-language models (VLMs) offer a multimodal alternative but struggle to capture clinical specificity when trained on general-domain data. To address this, we propose a retrieval-augmented VLM framework that incorporates semantically similar patient cases into the diagnostic prompt. Our method enables informed predictions without fine-tuning and significantly improves classification accuracy and error correction over conventional baselines. These results demonstrate that retrieval-augmented prompting provides a robust strategy for clinical decision support.

Ссылки и действия