FUTransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

2508.03758v1 eess.IV, cs.CV 2025-08-09
Авторы:

Akwasi Asare, Mary Sagoe, Justice Williams Asare

Резюме на русском

Авторы предлагают FUTransUNet-GradCAM, гибридную архитектуру, объединяющую Vision Transformer (ViT) и U-Net, для точного сегментирования диабетических лакательных порезов (DFU). Исследование выделяет трудности в сегментации DFU, включая их нетипичное появление, неоднородный фон и сложности в использовании CNN, ограниченных рецепторными полями. FUTransUNet использует трансформерную самоп paюющуюся внимания для эффективного доставления глобальных контекста и изящной частной детализации, оптимизированной skip-подключениями. Модель обучалась и валидировалась на FUSeg датасете, показывая Dice Coefficient 0.8679 и IoU 0.7672 в тренировке, а на валидации — 0.8751 и 0.7780 соответственно. Для ясности интерпретации предлагают Grad-CAM заметки, показывающие, где модель сосредотачивается при предсказании. Эффективность и трансляционный потенциал FUTransUNet-GradCAM демонстрируются, чтобы улучшить анализ и лечение DFU в реальных условиях.

Abstract

Automated segmentation of diabetic foot ulcers (DFUs) plays a critical role in clinical diagnosis, therapeutic planning, and longitudinal wound monitoring. However, this task remains challenging due to the heterogeneous appearance, irregular morphology, and complex backgrounds associated with ulcer regions in clinical photographs. Traditional convolutional neural networks (CNNs), such as U-Net, provide strong localization capabilities but struggle to model long-range spatial dependencies due to their inherently limited receptive fields. To address this, we propose FUTransUNet, a hybrid architecture that integrates the global attention mechanism of Vision Transformers (ViTs) into the U-Net framework. This combination allows the model to extract global contextual features while maintaining fine-grained spatial resolution through skip connections and an effective decoding pathway. We trained and validated FUTransUNet on the public Foot Ulcer Segmentation Challenge (FUSeg) dataset. FUTransUNet achieved a training Dice Coefficient of 0.8679, an IoU of 0.7672, and a training loss of 0.0053. On the validation set, the model achieved a Dice Coefficient of 0.8751, an IoU of 0.7780, and a validation loss of 0.009045. To ensure clinical transparency, we employed Grad-CAM visualizations, which highlighted model focus areas during prediction. These quantitative outcomes clearly demonstrate that our hybrid approach successfully integrates global and local feature extraction paradigms, thereby offering a highly robust, accurate, explainable, and interpretable solution and clinically translatable solution for automated foot ulcer analysis. The approach offers a reliable, high-fidelity solution for DFU segmentation, with implications for improving real-world wound assessment and patient care.

Ссылки и действия