Retrieval-Augmented VLMs for Multimodal Melanoma Diagnosis
2509.08338v1
cs.CV, cs.AI, cs.LG
2025-09-11
Авторы:
Jihyun Moon, Charmgil Hong
Резюме на русском
## Контекст
Диагностика малыничного меланома является критически важным аспектом медицинского ведения больных. Несмотря на то, что современные методы, такие как глубокие нейронные сети, демонстрируют высокую точность в анализе дермоскопических изображений, они часто игнорируют важность клинических метаданных. Особенно это касается визуальных языковых моделей (VLMs), которые обычно обучаются на широкой общедоступной базе данных, а не на специальной медицинской информации. Этот недостаток может привести к неточностям и неточностям в диагностике. В этом исследовании мы стремимся создать более перспективное решение, которое бы основывалось на взаимодействии между дермоскопическими изображениями и клиническими метаданными.
## Метод
Мы предлагаем фреймворк, основанный на восстановлении информации, сочетающий в себе визуальные модели и языковые модели. Наша технология включает в себя следующие этапы: сбор и верификация данных, визуальный анализ изображений и определение похожих клинических случаев. Мы разрабатываем специальную архитектуру модели, которая использует не только изображения, но также текстовые метаданные, такие как возраст, пол и история болезни пациента. Важной особенностью является возможность поиска похожих случаев в базе данных, что дает модели возможность более точного диагностирования и учета клинических особенностей.
## Результаты
Мы провести различные эксперименты на наборе данных, содержащих дермоскопические изображения и связанные с ними метаданные. Наши результаты показали, что восстановление-поддержка VLMs существенно повышает точность диагностики и способствует устранению ошибок, связанных с грубой обобщенностью обучающей базы данных. Мы сравнивали нашу модель с традиционными методами, такими как стандартные глубокие нейронные сети и VLMs, и продемонстрировали, что наш подход показывает значительное превосходство в классификации и восстановлении ошибочных диагнозов.
## Значимость
Предложенный подход может быть применен в медицинской практике для улучшения точности диагностики и снижения риска значительных ошибок. Он позволяет врачам использовать визуальную и текстовую информацию вместе, чтобы получать более информативные результаты. Этот подход может быть применен не только к диагностике малыничного меланома, но и к другим заболеваниям, для которых клинические метаданные играют ключевую роль. Наше решение также может стать основой для разработки будущих моделей, которые будут учитывать более широкий круг клинических факторов.
## Выводы
Мы до
Abstract
Accurate and early diagnosis of malignant melanoma is critical for improving
patient outcomes. While convolutional neural networks (CNNs) have shown promise
in dermoscopic image analysis, they often neglect clinical metadata and require
extensive preprocessing. Vision-language models (VLMs) offer a multimodal
alternative but struggle to capture clinical specificity when trained on
general-domain data. To address this, we propose a retrieval-augmented VLM
framework that incorporates semantically similar patient cases into the
diagnostic prompt. Our method enables informed predictions without fine-tuning
and significantly improves classification accuracy and error correction over
conventional baselines. These results demonstrate that retrieval-augmented
prompting provides a robust strategy for clinical decision support.
Ссылки и действия
Дополнительные ресурсы: