Enhanced SegNet with Integrated Grad-CAM for Interpretable Retinal Layer Segmentation in OCT Images

2509.07795v1 eess.IV, cs.AI, cs.CV 2025-09-11
Авторы:

S M Asiful Islam Saky, Ugyen Tshering

Резюме на русском

#### Контекст Оптическая когерентная томография (OCT) широко используется в клинической практике для диагностики заболеваний, таких как глаукома, диабетическая реtinопатия и старческая макулярная дегенерация. Однако ключевой элемент этих диагностических процессов — точная сегментация ретинальных слоев — часто требует много времени и склонна к молекулярной интерпретации. Ручная сегментация требует опыта и труда, а действия стандартных нейронных сетей часто являются непрозрачными. Эта проблема усложняет полезность нейросетевых моделей в клинических приложениях. Таким образом, целью данного исследования является развитие более точной, автоматизированной и интерпретируемой модели сегментации ретинальных слоев, которая могла бы упростить клинические задачи и обеспечить надежную интерпретацию результатов. #### Метод Предлагаемая модель основывается на SegNet, с целью улучшить ее возможности обобщения и точности. Измененные стратегии свертки и max-pooling позволяют модели более эффективно извлекать признаки из шумных OCT-изображений. Для решения проблемы неоднородности в слоях регионов, таких как жидкость сетчатки, разработана специализированная функция потерь, объединяющая функцию кросс-энтропии и Dice-loss. Это позволяет улучшить оценку и обучение модели для небольших регионов. В интеграцию модели также включен Gradient-weighted Class Activation Mapping (Grad-CAM), обеспечивающий графические объяснения для диагностических решений. Эта функция обеспечивает визуальную транспарентность и позволяет клиническим специалистам проверить результаты модели. Модель обучалась и проверялась на датасете Duke OCT, чтобы оценить ее точность и универсальность. #### Результаты Исследование показало, что модифицированная SegNet-модель достигла валидационной точности 95.77%, коэффициента Dice 0.9446 и Jaccard-индекса (IoU) 0.8951. Класс-специфические эксперименты показали высокую точность разделения почти для всех регионов региона, за исключением тонких границ. Grad-CAM-визуализации демонстрировали важность клинических зон, что подтверждало штамм модели в определении важных регионов. Эти визуальные объяснения способствуют лучшему пониманию того, как модель принимает решения, и увеличивают доверие клинических экспертов к ней. #### Значимость Полученная модель предлагает многочисленные преимущества для практических клинических приложений. Она обеспечивает высокую точность, значительно сокращая время, затрачиваемое на сегментацию. Интеграция Grad-CAM повышает транспарентность и помогает клиническим специалистам проверять результа

Abstract

Optical Coherence Tomography (OCT) is essential for diagnosing conditions such as glaucoma, diabetic retinopathy, and age-related macular degeneration. Accurate retinal layer segmentation enables quantitative biomarkers critical for clinical decision-making, but manual segmentation is time-consuming and variable, while conventional deep learning models often lack interpretability. This work proposes an improved SegNet-based deep learning framework for automated and interpretable retinal layer segmentation. Architectural innovations, including modified pooling strategies, enhance feature extraction from noisy OCT images, while a hybrid loss function combining categorical cross-entropy and Dice loss improves performance for thin and imbalanced retinal layers. Gradient-weighted Class Activation Mapping (Grad-CAM) is integrated to provide visual explanations, allowing clinical validation of model decisions. Trained and validated on the Duke OCT dataset, the framework achieved 95.77% validation accuracy, a Dice coefficient of 0.9446, and a Jaccard Index (IoU) of 0.8951. Class-wise results confirmed robust performance across most layers, with challenges remaining for thinner boundaries. Grad-CAM visualizations highlighted anatomically relevant regions, aligning segmentation with clinical biomarkers and improving transparency. By combining architectural improvements, a customized hybrid loss, and explainable AI, this study delivers a high-performing SegNet-based framework that bridges the gap between accuracy and interpretability. The approach offers strong potential for standardizing OCT analysis, enhancing diagnostic efficiency, and fostering clinical trust in AI-driven ophthalmic tools.

Ссылки и действия