A Multimodal Foundation Model to Enhance Generalizability and Data Efficiency for Pan-cancer Prognosis Prediction

2509.12600v1 cs.LG, cs.AI, q-bio.QM 2025-09-18
Авторы:

Huajun Zhou, Fengtao Zhou, Jiabo Ma, Yingxue Xu, Xi Wang, Xiuming Zhang, Li Liang, Zhenhui Li, Hao Chen

Резюме на русском

#### Контекст Область исследования заключается в развитии многомодальных моделей для прогноза показателей рака. Несмотря на выгодные свойства многомодальных данных, таких как патологические изображения, клинические отчеты и геномические данные, существующие модели часто сталкиваются с проблемами понимания такого типа данных и эффективного извлечения универсальных представлений. Эти ограничения приводят к узкому фокусу моделей и снижают их общий потенциал. Таким образом, возникает потребность в моделях, которые могут эффективно интегрировать различные модальности данных и обеспечивать широкое применение в разных сценариях клинического предсказания. #### Метод Предлагаемая модель, названная MICE (Multimodal data Integration via Collaborative Experts), представляет собой многомодальную фундаментальную модель, которая использует несколько функционально разнородных экспертов для извлечения кросс-канцеровых и канцеро-специфических представлений. В отличие от традиционных многоэкспертных моделей, MICE применяет контрастное обучение и супервизированное обучение, чтобы улучшить общие показатели модели. Данные, использованные для обучения, включают более 11 799 пациентов, покрывающих 30 различных типов рака. Эта структура позволяет модели стать более универсальной и эффективной в использовании данных. #### Результаты Experiments were conducted using internal and independent validation cohorts. MICE demonstrated outstanding performance by achieving substantial improvements in C-index, ranging from 3.8% to 11.2% across internal cohorts and 5.8% to 8.8% on independent cohorts. Эти результаты показывают высокую точность и стабильность модели в прогнозировании прогноза рака. Более того, MICE продемонстрировала высокую данность при работе с различными клиническими сценариями, что делает ее применимой для различных пациентских групп. #### Значимость MICE может применяться в различных клинических сценариях, таких как определение риска рака, персонализация терапии и мониторинг течения заболевания. Она предлагает значительные преимущества, такие как улучшение точности прогноза, уменьшение потребности в больших объемах данных и увеличение эффективности в клиническом применении. Это модель может иметь сильное влияние на рак-релевантные исследования и клиническую практику, помогая в разработке новых терапий и улучшении результатов лечения. #### Выводы MICE подтверждает свою эффективность в области многомодальных моделей для прогноза рака. Она устанавливает новый стандарт для общей ценности и эффективности в обработке многомодальных данных. Будущие исследования будут сконцентрированы на расширении MICE для других типов рака, а также на улучшении ее точности и терапевтического потенциала.

Abstract

Multimodal data provides heterogeneous information for a holistic understanding of the tumor microenvironment. However, existing AI models often struggle to harness the rich information within multimodal data and extract poorly generalizable representations. Here we present MICE (Multimodal data Integration via Collaborative Experts), a multimodal foundation model that effectively integrates pathology images, clinical reports, and genomics data for precise pan-cancer prognosis prediction. Instead of conventional multi-expert modules, MICE employs multiple functionally diverse experts to comprehensively capture both cross-cancer and cancer-specific insights. Leveraging data from 11,799 patients across 30 cancer types, we enhanced MICE's generalizability by coupling contrastive and supervised learning. MICE outperformed both unimodal and state-of-the-art multi-expert-based multimodal models, demonstrating substantial improvements in C-index ranging from 3.8% to 11.2% on internal cohorts and 5.8% to 8.8% on independent cohorts, respectively. Moreover, it exhibited remarkable data efficiency across diverse clinical scenarios. With its enhanced generalizability and data efficiency, MICE establishes an effective and scalable foundation for pan-cancer prognosis prediction, holding strong potential to personalize tailored therapies and improve treatment outcomes.

Ссылки и действия