Scalable and Loosely-Coupled Multimodal Deep Learning for Breast Cancer Subtyping

2509.03408v1 cs.CV, cs.LG 2025-09-05
Авторы:

Mohammed Amer, Mohamed A. Suliman, Tu Bui, Nuria Garcia, Serban Georgescu

Резюме на русском

## Контекст Здравоохранение — это широкомасштабная и многоаспектная область, где внедрение различных данных способствует усовершенствованию клинических задач. Одной из важнейших задач является мультимодальное морфологическое подтипирование раков груди, которое играет ключевую роль в формировании персонализированных тактик лечения и улучшении прогноза болезни. Несмотря на возможности интеграции многообразных данных, таких как копийное вариационное изменение (CNV), клинические записи и истории лабораторных исследований, недостаточное использование таких моделей приводит к ограниченным результатам. В настоящей работе предлагается многомодальный подход, который адаптируется к различным клиническим условиям и может легко расширяться на другие виды рака. ## Метод Предложенный подход основывается на многомодальной нейронной сети, которая использует различные модели для разных типов данных. Для изображений гистопатологических примеров (WSIs) была разработана двойная архитектура, сочетающая традиционные изображения с графом WSI. Это позволяет усилить информативность модели за счет объединения визуальных паттернов и структурных связей. Для комбинации модальностей вводится стратегия мультимодального слияния, которая позволяет гибко адаптироваться к различным видам клинических данных. Была также разработана система, которая просто и эффективно может масштабироваться для работы с новыми модальностями без требования к переувеличению модели. ## Результаты Использовались данные с различных уровней молекулярных подтипов рака груди, основываясь на CNV, клинических записях и гистопатологических изображениях. Модель была тестирована на разных кросс-валидациях, сравнивая результаты с современными методами. Наблюдался значительный выигрыш в точности и уменьшение ошибки по сравнению с текущими методами. Добавление новых модальностей не требует переувеличения модели, что делает процесс более эффективным и гибким. ## Значимость Предложенная модель может быть применена в различных клинических задачах, включая диагностику и молекулярное подтипирование рака. Универсальная архитектура, подходящая для различных модальностей, обеспечивает гибкость и масштабируемость. Этот подход может повысить точность диагноза и помочь в формировании персонализированных тактик лечения, что в конечном счете способствует улучшению прогноза для пациентов. ## Выводы Мультимодальный подход, основанный на двойной архитектуре WSI, комбинации CNV и клинических данных, показал выдающиеся результаты в морфологическом подтипировании рака груди. Будущие исследования буду

Abstract

Healthcare applications are inherently multimodal, benefiting greatly from the integration of diverse data sources. However, the modalities available in clinical settings can vary across different locations and patients. A key area that stands to gain from multimodal integration is breast cancer molecular subtyping, an important clinical task that can facilitate personalized treatment and improve patient prognosis. In this work, we propose a scalable and loosely-coupled multimodal framework that seamlessly integrates data from various modalities, including copy number variation (CNV), clinical records, and histopathology images, to enhance breast cancer subtyping. While our primary focus is on breast cancer, our framework is designed to easily accommodate additional modalities, offering the flexibility to scale up or down with minimal overhead without requiring re-training of existing modalities, making it applicable to other types of cancers as well. We introduce a dual-based representation for whole slide images (WSIs), combining traditional image-based and graph-based WSI representations. This novel dual approach results in significant performance improvements. Moreover, we present a new multimodal fusion strategy, demonstrating its ability to enhance performance across a range of multimodal conditions. Our comprehensive results show that integrating our dual-based WSI representation with CNV and clinical health records, along with our pipeline and fusion strategy, outperforms state-of-the-art methods in breast cancer subtyping.

Ссылки и действия