Expert-Guided Explainable Few-Shot Learning for Medical Image Diagnosis
2509.08007v2
eess.IV, cs.AI, cs.CV
2025-09-12
Авторы:
Ifrat Ikhtear Uddin, Longwei Wang, KC Santosh
Резюме на русском
#### Контекст
Медицинский анализ изображений широко применяется в диагностике, но сталкивается с ограничениями, связанными с недостатком экспертно аннотированных данных. Это приводит к проблемам с общеупотребимостью моделей и их клиническим применением. Большая часть работы в области небольших выборок (few-shot learning) ориентирована на улучшение точности классификации, но часто игнорирует важность прозрачности и интерпретируемости моделей, которые критичны для принятия решений в медицине. Наша мотивация заключается в создании фреймворка, который бы не только повышал точность, но и обеспечивал понятные причины своих выводов, укрепляя доверие клинических специалистов.
#### Метод
Мы предлагаем фреймворк, основанный на нескольких компонентов. Во-первых, мы используем регионы интереса (ROIs), предоставляемые радиологами, для направления внимания модели на ключевые области изображений. Во-вторых, мы вводим экспертно руководствованный метод управления вниманием, основанный на Grad-CAM, для получения специфичных для задачи специфичных супервайзеров внимания. В-третьих, мы предлагаем новую функцию потерь, основанную на Dice-similarity, для выравнивания внимания модели с теми областями, которые клинически значимы. Эта функция потерь учитывается вместе с целевым классическим целевым функционированием в рамках нескольких выборок. Модель обучается с использованием прототипной сети, при этом данные обучения сокращаются до нескольких выборок для каждого класса.
#### Результаты
Мы проверили наш фреймворк на двух различных наборах данных: BraTS (МРТ) и VinDr-CXR (Chest X-ray). На BraTS, в базовой ситуации точность модели выросла с 77.09% до 83.61%, а на VinDr-CXR — с 54.33% до 73.29%. Эти улучшения показывают, что наше решение повышает качество классификации и улучшает интерпретируемость модели. Мы также предоставили Grad-CAM-визуализации, подтверждающие, что модель обучается сосредоточиваться на диагностически важных областях, что улучшает надежность и надежность решений.
#### Значимость
Наш фреймворк может быть применен в различных областях, где недостаточно данных для обучения моделей, но требуется высокая точность и прозрачность. Это включает диагностику болезней, анализ изображений, где недостаточно выборок для обучения, и другие проблемы, где необходима доверительная взаимоотношение с клиническими специалистами. Наш подход предоставляет значительное преимущество в скорости интерпретируемости, что помогает клиническим специалистам понимать исходные решения и увеличивает ценность моделей в реальной клинической практике.
#### Выводы
Мы разработали экспертно руководствованную сист
Abstract
Medical image analysis often faces significant challenges due to limited
expert-annotated data, hindering both model generalization and clinical
adoption. We propose an expert-guided explainable few-shot learning framework
that integrates radiologist-provided regions of interest (ROIs) into model
training to simultaneously enhance classification performance and
interpretability. Leveraging Grad-CAM for spatial attention supervision, we
introduce an explanation loss based on Dice similarity to align model attention
with diagnostically relevant regions during training. This explanation loss is
jointly optimized with a standard prototypical network objective, encouraging
the model to focus on clinically meaningful features even under limited data
conditions. We evaluate our framework on two distinct datasets: BraTS (MRI) and
VinDr-CXR (Chest X-ray), achieving significant accuracy improvements from
77.09% to 83.61% on BraTS and from 54.33% to 73.29% on VinDr-CXR compared to
non-guided models. Grad-CAM visualizations further confirm that expert-guided
training consistently aligns attention with diagnostic regions, improving both
predictive reliability and clinical trustworthiness. Our findings demonstrate
the effectiveness of incorporating expert-guided attention supervision to
bridge the gap between performance and interpretability in few-shot medical
image diagnosis.
Ссылки и действия
Дополнительные ресурсы: