Enhanced SegNet with Integrated Grad-CAM for Interpretable Retinal Layer Segmentation in OCT Images
2509.07795v1
eess.IV, cs.AI, cs.CV
2025-09-11
Авторы:
S M Asiful Islam Saky, Ugyen Tshering
Резюме на русском
#### Контекст
Оптическая когерентная томография (OCT) широко используется в клинической практике для диагностики заболеваний, таких как глаукома, диабетическая реtinопатия и старческая макулярная дегенерация. Однако ключевой элемент этих диагностических процессов — точная сегментация ретинальных слоев — часто требует много времени и склонна к молекулярной интерпретации. Ручная сегментация требует опыта и труда, а действия стандартных нейронных сетей часто являются непрозрачными. Эта проблема усложняет полезность нейросетевых моделей в клинических приложениях. Таким образом, целью данного исследования является развитие более точной, автоматизированной и интерпретируемой модели сегментации ретинальных слоев, которая могла бы упростить клинические задачи и обеспечить надежную интерпретацию результатов.
#### Метод
Предлагаемая модель основывается на SegNet, с целью улучшить ее возможности обобщения и точности. Измененные стратегии свертки и max-pooling позволяют модели более эффективно извлекать признаки из шумных OCT-изображений. Для решения проблемы неоднородности в слоях регионов, таких как жидкость сетчатки, разработана специализированная функция потерь, объединяющая функцию кросс-энтропии и Dice-loss. Это позволяет улучшить оценку и обучение модели для небольших регионов. В интеграцию модели также включен Gradient-weighted Class Activation Mapping (Grad-CAM), обеспечивающий графические объяснения для диагностических решений. Эта функция обеспечивает визуальную транспарентность и позволяет клиническим специалистам проверить результаты модели. Модель обучалась и проверялась на датасете Duke OCT, чтобы оценить ее точность и универсальность.
#### Результаты
Исследование показало, что модифицированная SegNet-модель достигла валидационной точности 95.77%, коэффициента Dice 0.9446 и Jaccard-индекса (IoU) 0.8951. Класс-специфические эксперименты показали высокую точность разделения почти для всех регионов региона, за исключением тонких границ. Grad-CAM-визуализации демонстрировали важность клинических зон, что подтверждало штамм модели в определении важных регионов. Эти визуальные объяснения способствуют лучшему пониманию того, как модель принимает решения, и увеличивают доверие клинических экспертов к ней.
#### Значимость
Полученная модель предлагает многочисленные преимущества для практических клинических приложений. Она обеспечивает высокую точность, значительно сокращая время, затрачиваемое на сегментацию. Интеграция Grad-CAM повышает транспарентность и помогает клиническим специалистам проверять результа
Abstract
Optical Coherence Tomography (OCT) is essential for diagnosing conditions
such as glaucoma, diabetic retinopathy, and age-related macular degeneration.
Accurate retinal layer segmentation enables quantitative biomarkers critical
for clinical decision-making, but manual segmentation is time-consuming and
variable, while conventional deep learning models often lack interpretability.
This work proposes an improved SegNet-based deep learning framework for
automated and interpretable retinal layer segmentation. Architectural
innovations, including modified pooling strategies, enhance feature extraction
from noisy OCT images, while a hybrid loss function combining categorical
cross-entropy and Dice loss improves performance for thin and imbalanced
retinal layers. Gradient-weighted Class Activation Mapping (Grad-CAM) is
integrated to provide visual explanations, allowing clinical validation of
model decisions. Trained and validated on the Duke OCT dataset, the framework
achieved 95.77% validation accuracy, a Dice coefficient of 0.9446, and a
Jaccard Index (IoU) of 0.8951. Class-wise results confirmed robust performance
across most layers, with challenges remaining for thinner boundaries. Grad-CAM
visualizations highlighted anatomically relevant regions, aligning segmentation
with clinical biomarkers and improving transparency. By combining architectural
improvements, a customized hybrid loss, and explainable AI, this study delivers
a high-performing SegNet-based framework that bridges the gap between accuracy
and interpretability. The approach offers strong potential for standardizing
OCT analysis, enhancing diagnostic efficiency, and fostering clinical trust in
AI-driven ophthalmic tools.
Ссылки и действия
Дополнительные ресурсы: