A Systematic Study of Deep Learning Models and xAI Methods for Region-of-Interest Detection in MRI Scans
2508.14151v2
eess.IV, cs.AI, cs.CV
2025-08-22
Авторы:
Justin Yiu, Kushank Arora, Daniel Steinberg, Rohit Ghiya
Резюме на русском
## Контекст
Магнитная резонансная импульсивная томография (MRI) является ключевым инструментом в диагностике различных мышечно-суставных повреждений, в том числе в области оценки травм коленных суставов. Однако традиционный метод анализа МРТ-сканов, основанный на ручном интерпретировании снимков, является дорогостоящим, времязатратным и субъективным. Ошибки в оценке или несогласованность между специалистами часто приводят к неточным диагнозам и неверным лечебным решениям. Это способствует необходимости развития автоматизированных систем оценки здоровья суставов, которые могли бы улучшить точность диагностики и сократить время, затрачиваемое на консультации.
В этом исследовании мы стремимся рассмотреть современные глубокие нейронные сети и методы объясняемого ИИ (xAI) для решения проблемы обнаружения регионов интереса (ROI) в классификации МРТ-сканов коленных суставов. Особое внимание уделяется сравнению различных архитектур нейронных сетей и методов объяснения, чтобы определить наиболее эффективные подходы в этой области.
## Метод
Для этого исследования выбраны несколько моделей глубокого обучения, включая ResNet50, InceptionV3, Vision Transformers (ViT), а также различные варианты U-Net с классификаторами на основе многослойных перцептров (MLP). Для улучшения интерпретируемости и клинической значимости применены методы xAI, такие как Grad-CAM и Saliency Maps.
Модели были обучены и оценивались на MRNet dataset, который содержит 1,400 сканов МРТ коленных суставов с метками для обнаружения трех классов: нормального состояния, классификации повреждений лигаментов и суставных подвисаний. Метрики оценки включают AUC для классификации и PSNR/SSIM для реконструкции изображений. Также были проведены квалитативные оценки за счет визуализации регионов интереса (ROI).
## Результаты
В результатах оказалось, что ResNet50 показал самые высокие результаты в классификации и обнаружении ROI. Эта модель показала лучший AUC и наиболее точные результаты в идентификации повреждений, особенно в сравнении с transformer-based моделями, такими как ViT. Хотя U-Net с MLP показали сильные результаты в реконструкции изображений, их классификационная точность оставалась ниже, чем у ResNet50. Методы xAI, такие как Grad-CAM, стабильно демонстрировали наиболее понятные и клинически значимые объяснения для всех моделей.
## Значимость
Результаты этого исследования имеют большое значение для области медицинского искусственного интеллекта и медицинской диагностики. Использование CNN-based моделей, таких как ResNet50, может ускорить процесс диагностики и снизить веро
Abstract
Magnetic Resonance Imaging (MRI) is an essential diagnostic tool for
assessing knee injuries. However, manual interpretation of MRI slices remains
time-consuming and prone to inter-observer variability. This study presents a
systematic evaluation of various deep learning architectures combined with
explainable AI (xAI) techniques for automated region of interest (ROI)
detection in knee MRI scans. We investigate both supervised and self-supervised
approaches, including ResNet50, InceptionV3, Vision Transformers (ViT), and
multiple U-Net variants augmented with multi-layer perceptron (MLP)
classifiers. To enhance interpretability and clinical relevance, we integrate
xAI methods such as Grad-CAM and Saliency Maps. Model performance is assessed
using AUC for classification and PSNR/SSIM for reconstruction quality, along
with qualitative ROI visualizations. Our results demonstrate that ResNet50
consistently excels in classification and ROI identification, outperforming
transformer-based models under the constraints of the MRNet dataset. While
hybrid U-Net + MLP approaches show potential for leveraging spatial features in
reconstruction and interpretability, their classification performance remains
lower. Grad-CAM consistently provided the most clinically meaningful
explanations across architectures. Overall, CNN-based transfer learning emerges
as the most effective approach for this dataset, while future work with
larger-scale pretraining may better unlock the potential of transformer models.
Ссылки и действия
Дополнительные ресурсы: