Grounding Multimodal Large Language Models with Quantitative Skin Attributes: A Retrieval Study

2508.20188v1 cs.CV, cs.LG 2025-08-30

Авторы:

Max Torop, Masih Eskandar, Nicholas Kurtansky, Jinyang Liu, Jochen Weber, Octavia Camps, Veronica Rotemberg, Jennifer Dy, Kivanc Kose

Резюме на русском

Название: Grounding Multimodal Large Language Models with Quantitative Skin Attributes: A Retrieval Study ## Контекст Ключевым вызовом в области искусственного интеллекта является улучшение интерпретируемости моделей, особенно в задачах диагностики, таких как дерматологическая диагностика. Несмотря на успех моделей в области диагностики неряшливостей, в том числе раковых, их результаты часто остаются непонятными для клинического персонала. Это влечет за собой серьезные практические ограничения. Многие модели, основанные на многомодальных языковых моделях (MLLMs), показывают заметный потенциал в облегчении диагностического процесса, предоставляя естественно-языковые обоснования своих выводов. Однако возможность использования таких моделей в практической клинической практике ограничена нехваткой возможности проверять их выводы на предмет точности и адекватности. Мы рассматриваем возможность использования количественных атрибутов, связанных с поверхностными неряшливостях (например, их площадь и границы), для улучшения интерпретируемости моделей. Такие атрибуты, часто являющимися качественными, могут привести к новым возможностям для более точной оценки результатов моделей. ## Метод Мы применяем метод обучения с подкреплением (fine-tuning) для уточнения модели в задаче предсказания количественных атрибутов, связанных с неряшливостями (например, площадь, близость к границам и т.д.). Эти атрибуты считаются ключевыми для оценивания диагностической сложности и могут помочь структурировать выводы модели. Мы осуществляем регулирование модели, обучая ее предсказывать эти атрибуты на основе изображений. Метод включает в себя сбор изображений неряшливостей, получение количественных значений атрибутов (например, площади) и налаживание ассоциации между изображениями и атрибутами. Модель настраивается для точного предсказания этих количественных параметров, чтобы получить возможность использовать их в качестве признаков для дальнейшей оценки интерпретации результатов. ## Результаты Мы проводим эксперименты с SLICE-3D датасетом, который представляет собой набор изображений и атрибутов дерматологических неряшливостей. Выполняется тщательная оценка того, насколько точно модель предсказывает количественные атрибуты на изображениях. Мы проводим сравнительный анализ с другими методами, которые не применяют атрибуты. В результате выявляем, что модель, настроенная на предсказание атрибутов, показывает значительно более высокую точность и стабильность в прогнозировании. Эти результаты подтверждают возможность использования количественных атрибутов для улучшения интерпретации моделе

Abstract

Artificial Intelligence models have demonstrated significant success in diagnosing skin diseases, including cancer, showing the potential to assist clinicians in their analysis. However, the interpretability of model predictions must be significantly improved before they can be used in practice. To this end, we explore the combination of two promising approaches: Multimodal Large Language Models (MLLMs) and quantitative attribute usage. MLLMs offer a potential avenue for increased interpretability, providing reasoning for diagnosis in natural language through an interactive format. Separately, a number of quantitative attributes that are related to lesion appearance (e.g., lesion area) have recently been found predictive of malignancy with high accuracy. Predictions grounded as a function of such concepts have the potential for improved interpretability. We provide evidence that MLLM embedding spaces can be grounded in such attributes, through fine-tuning to predict their values from images. Concretely, we evaluate this grounding in the embedding space through an attribute-specific content-based image retrieval case study using the SLICE-3D dataset.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Grounding Multimodal Large Language Models with Quantitative Skin Attributes: A Retrieval Study

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация