Transformer-Based Explainable Deep Learning for Breast Cancer Detection in Mammography: The MammoFormer Framework

2508.06137v1 eess.IV, cs.CV 2025-08-12
Авторы:

Ojonugwa Oluwafemi Ejiga Peter, Daniel Emakporuena, Bamidele Dayo Tunde, Maryam Abdulkarim, Abdullahi Bn Umar

Резюме на русском

#### Контекст Диагностика рака молочной железы через интерпретацию маммографических изображений является сложной задачей, в связи с минимальностью аномалий, которые необходимо выявить, а также различиями в толкованиях между специалистами. Человеческий глаз способен обнаружить только наиболее явные сигналы, что может привести к неточностям. Современные конвенциональные сети нейронных сетей (CNN), применяемые в медицинском анализе изображений, имеют две ограничения: они неэффективно обрабатывают локальные детали и широкие контексты, а также не предоставляют достаточные пояснения (Explainable AI, XAI), которые клинические специалисты требуют для принятия решений. #### Метод Объединив трансформерную архитектуру с компонентами усиления многофункциональных признаков и XAI-функционалом, разработчики предложили MammoFormer-фреймворк. Он включает в себя семь разных архитектур, включая CNN, Vision Transformer (ViT), Swin Transformer и ConvNext, а также четыре техники усиления признаков (оригинальные изображения, отрицательная трансформация, адаптивное гистограммное эквивалентирование и гистограмма углов ориентации точек). Разработка такого подхода позволила решить ключевые проблемы, связанные с недостаточным обработкой локальных деталей и нехваткой пояснений, которые ограничивают клиническую применимость AI-систем. #### Результаты Эксперименты проводились с использованием большого датасета маммографических изображений. Фреймворк MammoFormer достиг до 13% улучшений в производительности и показал 98,3% точности при использовании ViT в сочетании с AHE. Этот подход также имеет высокую гибкость и может работать с различными видами контекста, обеспечивая обоснованные клинические решения. Таким образом, разработка сочетает в себе устойчивость моделей CNN и глобальное моделирование контекста трансформерами. #### Значимость МаммоFormer-фреймворк может быть применен в клинической практике для улучшения точности диагностики рака молочной железы. Он имеет ряд преимуществ, в том числе улучшенную транспарентность решений, которая может повысить доверие к AI-системам у клинических специалистов. Благодаря интеграции XAI, система может объяснять свои прогнозы, что является критически важным для клинической приемлемости. #### Выводы Разработанный MammoFormer-фреймворк является прорывом в области XAI для диагностики рака молочной железы. Он улучшает точность интерпретации изображений и обеспечивает понимание результатов врачами. Будущие исследования будут сфокусированы на расширении применения этого подхода на другие виды биомедицинских

Abstract

Breast cancer detection through mammography interpretation remains difficult because of the minimal nature of abnormalities that experts need to identify alongside the variable interpretations between readers. The potential of CNNs for medical image analysis faces two limitations: they fail to process both local information and wide contextual data adequately, and do not provide explainable AI (XAI) operations that doctors need to accept them in clinics. The researcher developed the MammoFormer framework, which unites transformer-based architecture with multi-feature enhancement components and XAI functionalities within one framework. Seven different architectures consisting of CNNs, Vision Transformer, Swin Transformer, and ConvNext were tested alongside four enhancement techniques, including original images, negative transformation, adaptive histogram equalization, and histogram of oriented gradients. The MammoFormer framework addresses critical clinical adoption barriers of AI mammography systems through: (1) systematic optimization of transformer architectures via architecture-specific feature enhancement, achieving up to 13% performance improvement, (2) comprehensive explainable AI integration providing multi-perspective diagnostic interpretability, and (3) a clinically deployable ensemble system combining CNN reliability with transformer global context modeling. The combination of transformer models with suitable feature enhancements enables them to achieve equal or better results than CNN approaches. ViT achieves 98.3% accuracy alongside AHE while Swin Transformer gains a 13.0% advantage through HOG enhancements

Ссылки и действия