Transformer-Based Explainable Deep Learning for Breast Cancer Detection in Mammography: The MammoFormer Framework
2508.06137v1
eess.IV, cs.CV
2025-08-12
Авторы:
Ojonugwa Oluwafemi Ejiga Peter, Daniel Emakporuena, Bamidele Dayo Tunde, Maryam Abdulkarim, Abdullahi Bn Umar
Резюме на русском
#### Контекст
Диагностика рака молочной железы через интерпретацию маммографических изображений является сложной задачей, в связи с минимальностью аномалий, которые необходимо выявить, а также различиями в толкованиях между специалистами. Человеческий глаз способен обнаружить только наиболее явные сигналы, что может привести к неточностям. Современные конвенциональные сети нейронных сетей (CNN), применяемые в медицинском анализе изображений, имеют две ограничения: они неэффективно обрабатывают локальные детали и широкие контексты, а также не предоставляют достаточные пояснения (Explainable AI, XAI), которые клинические специалисты требуют для принятия решений.
#### Метод
Объединив трансформерную архитектуру с компонентами усиления многофункциональных признаков и XAI-функционалом, разработчики предложили MammoFormer-фреймворк. Он включает в себя семь разных архитектур, включая CNN, Vision Transformer (ViT), Swin Transformer и ConvNext, а также четыре техники усиления признаков (оригинальные изображения, отрицательная трансформация, адаптивное гистограммное эквивалентирование и гистограмма углов ориентации точек). Разработка такого подхода позволила решить ключевые проблемы, связанные с недостаточным обработкой локальных деталей и нехваткой пояснений, которые ограничивают клиническую применимость AI-систем.
#### Результаты
Эксперименты проводились с использованием большого датасета маммографических изображений. Фреймворк MammoFormer достиг до 13% улучшений в производительности и показал 98,3% точности при использовании ViT в сочетании с AHE. Этот подход также имеет высокую гибкость и может работать с различными видами контекста, обеспечивая обоснованные клинические решения. Таким образом, разработка сочетает в себе устойчивость моделей CNN и глобальное моделирование контекста трансформерами.
#### Значимость
МаммоFormer-фреймворк может быть применен в клинической практике для улучшения точности диагностики рака молочной железы. Он имеет ряд преимуществ, в том числе улучшенную транспарентность решений, которая может повысить доверие к AI-системам у клинических специалистов. Благодаря интеграции XAI, система может объяснять свои прогнозы, что является критически важным для клинической приемлемости.
#### Выводы
Разработанный MammoFormer-фреймворк является прорывом в области XAI для диагностики рака молочной железы. Он улучшает точность интерпретации изображений и обеспечивает понимание результатов врачами. Будущие исследования будут сфокусированы на расширении применения этого подхода на другие виды биомедицинских
Abstract
Breast cancer detection through mammography interpretation remains difficult
because of the minimal nature of abnormalities that experts need to identify
alongside the variable interpretations between readers. The potential of CNNs
for medical image analysis faces two limitations: they fail to process both
local information and wide contextual data adequately, and do not provide
explainable AI (XAI) operations that doctors need to accept them in clinics.
The researcher developed the MammoFormer framework, which unites
transformer-based architecture with multi-feature enhancement components and
XAI functionalities within one framework. Seven different architectures
consisting of CNNs, Vision Transformer, Swin Transformer, and ConvNext were
tested alongside four enhancement techniques, including original images,
negative transformation, adaptive histogram equalization, and histogram of
oriented gradients. The MammoFormer framework addresses critical clinical
adoption barriers of AI mammography systems through: (1) systematic
optimization of transformer architectures via architecture-specific feature
enhancement, achieving up to 13% performance improvement, (2) comprehensive
explainable AI integration providing multi-perspective diagnostic
interpretability, and (3) a clinically deployable ensemble system combining CNN
reliability with transformer global context modeling. The combination of
transformer models with suitable feature enhancements enables them to achieve
equal or better results than CNN approaches. ViT achieves 98.3% accuracy
alongside AHE while Swin Transformer gains a 13.0% advantage through HOG
enhancements
Ссылки и действия
Дополнительные ресурсы: