A Systematic Study of Deep Learning Models and xAI Methods for Region-of-Interest Detection in MRI Scans

2508.14151v2 eess.IV, cs.AI, cs.CV 2025-08-22
Авторы:

Justin Yiu, Kushank Arora, Daniel Steinberg, Rohit Ghiya

Резюме на русском

## Контекст Магнитная резонансная импульсивная томография (MRI) является ключевым инструментом в диагностике различных мышечно-суставных повреждений, в том числе в области оценки травм коленных суставов. Однако традиционный метод анализа МРТ-сканов, основанный на ручном интерпретировании снимков, является дорогостоящим, времязатратным и субъективным. Ошибки в оценке или несогласованность между специалистами часто приводят к неточным диагнозам и неверным лечебным решениям. Это способствует необходимости развития автоматизированных систем оценки здоровья суставов, которые могли бы улучшить точность диагностики и сократить время, затрачиваемое на консультации. В этом исследовании мы стремимся рассмотреть современные глубокие нейронные сети и методы объясняемого ИИ (xAI) для решения проблемы обнаружения регионов интереса (ROI) в классификации МРТ-сканов коленных суставов. Особое внимание уделяется сравнению различных архитектур нейронных сетей и методов объяснения, чтобы определить наиболее эффективные подходы в этой области. ## Метод Для этого исследования выбраны несколько моделей глубокого обучения, включая ResNet50, InceptionV3, Vision Transformers (ViT), а также различные варианты U-Net с классификаторами на основе многослойных перцептров (MLP). Для улучшения интерпретируемости и клинической значимости применены методы xAI, такие как Grad-CAM и Saliency Maps. Модели были обучены и оценивались на MRNet dataset, который содержит 1,400 сканов МРТ коленных суставов с метками для обнаружения трех классов: нормального состояния, классификации повреждений лигаментов и суставных подвисаний. Метрики оценки включают AUC для классификации и PSNR/SSIM для реконструкции изображений. Также были проведены квалитативные оценки за счет визуализации регионов интереса (ROI). ## Результаты В результатах оказалось, что ResNet50 показал самые высокие результаты в классификации и обнаружении ROI. Эта модель показала лучший AUC и наиболее точные результаты в идентификации повреждений, особенно в сравнении с transformer-based моделями, такими как ViT. Хотя U-Net с MLP показали сильные результаты в реконструкции изображений, их классификационная точность оставалась ниже, чем у ResNet50. Методы xAI, такие как Grad-CAM, стабильно демонстрировали наиболее понятные и клинически значимые объяснения для всех моделей. ## Значимость Результаты этого исследования имеют большое значение для области медицинского искусственного интеллекта и медицинской диагностики. Использование CNN-based моделей, таких как ResNet50, может ускорить процесс диагностики и снизить веро

Abstract

Magnetic Resonance Imaging (MRI) is an essential diagnostic tool for assessing knee injuries. However, manual interpretation of MRI slices remains time-consuming and prone to inter-observer variability. This study presents a systematic evaluation of various deep learning architectures combined with explainable AI (xAI) techniques for automated region of interest (ROI) detection in knee MRI scans. We investigate both supervised and self-supervised approaches, including ResNet50, InceptionV3, Vision Transformers (ViT), and multiple U-Net variants augmented with multi-layer perceptron (MLP) classifiers. To enhance interpretability and clinical relevance, we integrate xAI methods such as Grad-CAM and Saliency Maps. Model performance is assessed using AUC for classification and PSNR/SSIM for reconstruction quality, along with qualitative ROI visualizations. Our results demonstrate that ResNet50 consistently excels in classification and ROI identification, outperforming transformer-based models under the constraints of the MRNet dataset. While hybrid U-Net + MLP approaches show potential for leveraging spatial features in reconstruction and interpretability, their classification performance remains lower. Grad-CAM consistently provided the most clinically meaningful explanations across architectures. Overall, CNN-based transfer learning emerges as the most effective approach for this dataset, while future work with larger-scale pretraining may better unlock the potential of transformer models.

Ссылки и действия