FUTransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation
2508.03758v1
eess.IV, cs.CV
2025-08-09
Авторы:
Akwasi Asare, Mary Sagoe, Justice Williams Asare
Резюме на русском
Авторы предлагают FUTransUNet-GradCAM, гибридную архитектуру, объединяющую Vision Transformer (ViT) и U-Net, для точного сегментирования диабетических лакательных порезов (DFU). Исследование выделяет трудности в сегментации DFU, включая их нетипичное появление, неоднородный фон и сложности в использовании CNN, ограниченных рецепторными полями. FUTransUNet использует трансформерную самоп paюющуюся внимания для эффективного доставления глобальных контекста и изящной частной детализации, оптимизированной skip-подключениями. Модель обучалась и валидировалась на FUSeg датасете, показывая Dice Coefficient 0.8679 и IoU 0.7672 в тренировке, а на валидации — 0.8751 и 0.7780 соответственно. Для ясности интерпретации предлагают Grad-CAM заметки, показывающие, где модель сосредотачивается при предсказании. Эффективность и трансляционный потенциал FUTransUNet-GradCAM демонстрируются, чтобы улучшить анализ и лечение DFU в реальных условиях.
Abstract
Automated segmentation of diabetic foot ulcers (DFUs) plays a critical role
in clinical diagnosis, therapeutic planning, and longitudinal wound monitoring.
However, this task remains challenging due to the heterogeneous appearance,
irregular morphology, and complex backgrounds associated with ulcer regions in
clinical photographs. Traditional convolutional neural networks (CNNs), such as
U-Net, provide strong localization capabilities but struggle to model
long-range spatial dependencies due to their inherently limited receptive
fields. To address this, we propose FUTransUNet, a hybrid architecture that
integrates the global attention mechanism of Vision Transformers (ViTs) into
the U-Net framework. This combination allows the model to extract global
contextual features while maintaining fine-grained spatial resolution through
skip connections and an effective decoding pathway. We trained and validated
FUTransUNet on the public Foot Ulcer Segmentation Challenge (FUSeg) dataset.
FUTransUNet achieved a training Dice Coefficient of 0.8679, an IoU of 0.7672,
and a training loss of 0.0053. On the validation set, the model achieved a Dice
Coefficient of 0.8751, an IoU of 0.7780, and a validation loss of 0.009045. To
ensure clinical transparency, we employed Grad-CAM visualizations, which
highlighted model focus areas during prediction. These quantitative outcomes
clearly demonstrate that our hybrid approach successfully integrates global and
local feature extraction paradigms, thereby offering a highly robust, accurate,
explainable, and interpretable solution and clinically translatable solution
for automated foot ulcer analysis. The approach offers a reliable,
high-fidelity solution for DFU segmentation, with implications for improving
real-world wound assessment and patient care.
Ссылки и действия
Дополнительные ресурсы: