Cross-Attention Multimodal Fusion for Breast Cancer Diagnosis: Integrating Mammography and Clinical Data with Explainability

2508.16000v1 eess.IV, cs.CV, cs.LG 2025-08-26
Авторы:

Muhaisin Tiyumba Nantogmah, Abdul-Barik Alhassan, Salamudeen Alhassan

Резюме на русском

## Контекст Определение риска развития раковых опухолей молочной железы является одной из ключевых задач в медицинской диагностике. Адекватное оценивание этого риска может существенно снизить частоту развития заболевания и обеспечить врачам более точное возможности выбора лечебной стратегии. Несмотря на прогресс в области компьютеризированных систем поддержки принятия решений, большинство из них основывается только на информации из маммограмм. Хотя этот подход демонстрирует достаточно высокую эффективность, он не вполне использует ценность информации, содержащейся в клинических отчетах. Эти отчеты могут предоставить дополнительные ключевые признаки, которые могут существенно улучшить точность диагностики. В этом исследовании рассматривается вопрос о том, в какой степени клинические признаки могут улучшить качество классификации в сравнении с маммографией в одиночку, а также возможность совместного использования этих двух источников информации для повышения точности и достоверности моделей. ## Метод Для решения поставленной задачи использована методология мультимодального обучения с применением нейронных сетей. Основной архитектурой стала модель, основанная на методе cross-attention, которая эффективно объединяет данные из маммограмм и клинических отчетов. Сеть обрабатывает две модальности данных независимо, а затем объединяет их с помощью механизма cross-attention, что позволяет подчеркнуть важные факторы из обоих источников. Эта модель обучалась на наборе данных TCGA и CBIS-DDSM, которые включают как маммографические изображения, так и клинические данные в категориальном виде. Использовались методы метрической оценки, такие как AUC-ROC, F1-score и accuracy, для оценки качества работы модели. ## Результаты Исследование проводилось на наборе TCGA и CBIS-DDSM, содержащих изображения маммограмм и клинические данные. Модель cross-attention показала высокую эффективность, достигнув AUC-ROC в 0.98, accuracy в 0.96, F1-score в 0.94, precision в 0.92 и recall в 0.95. Эти показатели превышают результаты моделей, основанных только на маммографических данных. Эксперименты показали, что клинические признаки не только добавили новые информационные признаки, но и улучшили общую стабильность модели, повысив ее надежность и точность в диагностике рака молочной железы. ## Значимость Результаты исследования могут найти применение в современных системах компьютеризированной поддержки принятия решений в медицине. Данная модель демонстрирует преимущества использования мультимодального подхода, который может быть использован для повышения точности и достоверности диагностики рака молочной желез

Abstract

A precise assessment of the risk of breast lesions can greatly lower it and assist physicians in choosing the best course of action. To categorise breast lesions, the majority of current computer-aided systems only use characteristics from mammograms. Although this method is practical, it does not completely utilise clinical reports' valuable information to attain the best results. When compared to utilising mammography alone, will clinical features greatly enhance the categorisation of breast lesions? How may clinical features and mammograms be combined most effectively? In what ways may explainable AI approaches improve the interpretability and reliability of models used to diagnose breast cancer? To answer these basic problems, a comprehensive investigation is desperately needed. In order to integrate mammography and categorical clinical characteristics, this study examines a number of multimodal deep networks grounded on feature concatenation, co-attention, and cross-attention. The model achieved an AUC-ROC of 0.98, accuracy of 0.96, F1-score of 0.94, precision of 0.92, and recall of 0.95 when tested on publicly accessible datasets (TCGA and CBIS-DDSM).

Ссылки и действия