Cross-Attention Multimodal Fusion for Breast Cancer Diagnosis: Integrating Mammography and Clinical Data with Explainability
2508.16000v1
eess.IV, cs.CV, cs.LG
2025-08-26
Авторы:
Muhaisin Tiyumba Nantogmah, Abdul-Barik Alhassan, Salamudeen Alhassan
Резюме на русском
## Контекст
Определение риска развития раковых опухолей молочной железы является одной из ключевых задач в медицинской диагностике. Адекватное оценивание этого риска может существенно снизить частоту развития заболевания и обеспечить врачам более точное возможности выбора лечебной стратегии. Несмотря на прогресс в области компьютеризированных систем поддержки принятия решений, большинство из них основывается только на информации из маммограмм. Хотя этот подход демонстрирует достаточно высокую эффективность, он не вполне использует ценность информации, содержащейся в клинических отчетах. Эти отчеты могут предоставить дополнительные ключевые признаки, которые могут существенно улучшить точность диагностики. В этом исследовании рассматривается вопрос о том, в какой степени клинические признаки могут улучшить качество классификации в сравнении с маммографией в одиночку, а также возможность совместного использования этих двух источников информации для повышения точности и достоверности моделей.
## Метод
Для решения поставленной задачи использована методология мультимодального обучения с применением нейронных сетей. Основной архитектурой стала модель, основанная на методе cross-attention, которая эффективно объединяет данные из маммограмм и клинических отчетов. Сеть обрабатывает две модальности данных независимо, а затем объединяет их с помощью механизма cross-attention, что позволяет подчеркнуть важные факторы из обоих источников. Эта модель обучалась на наборе данных TCGA и CBIS-DDSM, которые включают как маммографические изображения, так и клинические данные в категориальном виде. Использовались методы метрической оценки, такие как AUC-ROC, F1-score и accuracy, для оценки качества работы модели.
## Результаты
Исследование проводилось на наборе TCGA и CBIS-DDSM, содержащих изображения маммограмм и клинические данные. Модель cross-attention показала высокую эффективность, достигнув AUC-ROC в 0.98, accuracy в 0.96, F1-score в 0.94, precision в 0.92 и recall в 0.95. Эти показатели превышают результаты моделей, основанных только на маммографических данных. Эксперименты показали, что клинические признаки не только добавили новые информационные признаки, но и улучшили общую стабильность модели, повысив ее надежность и точность в диагностике рака молочной железы.
## Значимость
Результаты исследования могут найти применение в современных системах компьютеризированной поддержки принятия решений в медицине. Данная модель демонстрирует преимущества использования мультимодального подхода, который может быть использован для повышения точности и достоверности диагностики рака молочной желез
Abstract
A precise assessment of the risk of breast lesions can greatly lower it and
assist physicians in choosing the best course of action. To categorise breast
lesions, the majority of current computer-aided systems only use
characteristics from mammograms. Although this method is practical, it does not
completely utilise clinical reports' valuable information to attain the best
results. When compared to utilising mammography alone, will clinical features
greatly enhance the categorisation of breast lesions? How may clinical features
and mammograms be combined most effectively? In what ways may explainable AI
approaches improve the interpretability and reliability of models used to
diagnose breast cancer? To answer these basic problems, a comprehensive
investigation is desperately needed. In order to integrate mammography and
categorical clinical characteristics, this study examines a number of
multimodal deep networks grounded on feature concatenation, co-attention, and
cross-attention. The model achieved an AUC-ROC of 0.98, accuracy of 0.96,
F1-score of 0.94, precision of 0.92, and recall of 0.95 when tested on publicly
accessible datasets (TCGA and CBIS-DDSM).
Ссылки и действия
Дополнительные ресурсы: