Expert-Guided Explainable Few-Shot Learning for Medical Image Diagnosis

2509.08007v2 eess.IV, cs.AI, cs.CV 2025-09-12
Авторы:

Ifrat Ikhtear Uddin, Longwei Wang, KC Santosh

Резюме на русском

#### Контекст Медицинский анализ изображений широко применяется в диагностике, но сталкивается с ограничениями, связанными с недостатком экспертно аннотированных данных. Это приводит к проблемам с общеупотребимостью моделей и их клиническим применением. Большая часть работы в области небольших выборок (few-shot learning) ориентирована на улучшение точности классификации, но часто игнорирует важность прозрачности и интерпретируемости моделей, которые критичны для принятия решений в медицине. Наша мотивация заключается в создании фреймворка, который бы не только повышал точность, но и обеспечивал понятные причины своих выводов, укрепляя доверие клинических специалистов. #### Метод Мы предлагаем фреймворк, основанный на нескольких компонентов. Во-первых, мы используем регионы интереса (ROIs), предоставляемые радиологами, для направления внимания модели на ключевые области изображений. Во-вторых, мы вводим экспертно руководствованный метод управления вниманием, основанный на Grad-CAM, для получения специфичных для задачи специфичных супервайзеров внимания. В-третьих, мы предлагаем новую функцию потерь, основанную на Dice-similarity, для выравнивания внимания модели с теми областями, которые клинически значимы. Эта функция потерь учитывается вместе с целевым классическим целевым функционированием в рамках нескольких выборок. Модель обучается с использованием прототипной сети, при этом данные обучения сокращаются до нескольких выборок для каждого класса. #### Результаты Мы проверили наш фреймворк на двух различных наборах данных: BraTS (МРТ) и VinDr-CXR (Chest X-ray). На BraTS, в базовой ситуации точность модели выросла с 77.09% до 83.61%, а на VinDr-CXR — с 54.33% до 73.29%. Эти улучшения показывают, что наше решение повышает качество классификации и улучшает интерпретируемость модели. Мы также предоставили Grad-CAM-визуализации, подтверждающие, что модель обучается сосредоточиваться на диагностически важных областях, что улучшает надежность и надежность решений. #### Значимость Наш фреймворк может быть применен в различных областях, где недостаточно данных для обучения моделей, но требуется высокая точность и прозрачность. Это включает диагностику болезней, анализ изображений, где недостаточно выборок для обучения, и другие проблемы, где необходима доверительная взаимоотношение с клиническими специалистами. Наш подход предоставляет значительное преимущество в скорости интерпретируемости, что помогает клиническим специалистам понимать исходные решения и увеличивает ценность моделей в реальной клинической практике. #### Выводы Мы разработали экспертно руководствованную сист

Abstract

Medical image analysis often faces significant challenges due to limited expert-annotated data, hindering both model generalization and clinical adoption. We propose an expert-guided explainable few-shot learning framework that integrates radiologist-provided regions of interest (ROIs) into model training to simultaneously enhance classification performance and interpretability. Leveraging Grad-CAM for spatial attention supervision, we introduce an explanation loss based on Dice similarity to align model attention with diagnostically relevant regions during training. This explanation loss is jointly optimized with a standard prototypical network objective, encouraging the model to focus on clinically meaningful features even under limited data conditions. We evaluate our framework on two distinct datasets: BraTS (MRI) and VinDr-CXR (Chest X-ray), achieving significant accuracy improvements from 77.09% to 83.61% on BraTS and from 54.33% to 73.29% on VinDr-CXR compared to non-guided models. Grad-CAM visualizations further confirm that expert-guided training consistently aligns attention with diagnostic regions, improving both predictive reliability and clinical trustworthiness. Our findings demonstrate the effectiveness of incorporating expert-guided attention supervision to bridge the gap between performance and interpretability in few-shot medical image diagnosis.

Ссылки и действия