Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

2508.16479v1 eess.IV, cs.AI, cs.CV 2025-08-26

Авторы:

Yupei Zhang, Xiaofei Wang, Anran Liu, Lequan Yu, Chao Li

Резюме на русском

## Контекст Histopathology остается золотым стандартом для диагностики и прогноза рака. С появлением профилирования транскриптома, мультимодальное обучение, объединяющее транскриптомы с историей, дает более полную картину. Однако существующие мультимодальные подходы сталкиваются с проблемами, такими как внутренняя неоднородность модальностей, недостаточность интеграции на разных масштабах и зависимость от парных данных. Эти ограничения ограничивают клиническую применимость таких подходов. Мы предлагаем дисендентный мультимодальный фреймворк, который оптимизирует выделение информационных подпространств и улучшает интеграцию и обработку данных. ## Метод Мы предлагаем дисендентный фреймворк, состоящий из четырех основных компонентов. Во-первых, мы разделяем изображения выделяемых из образов на видеомагнификации (WSIs) и профили транскриптома на туберовая и микросредовые подпространства с помощью дисендентного модуля слияния. Во-вторых, мы предлагаем стратегию оптимизации, использующую совместное уточнение подпространств. В-третьих, мы предлагаем стратегию уменьшения зависимости от парных данных, используя подготовленные подпространства для прогнозирования без необходимости парных данных. В-четвертых, мы предлагаем модуль сгруппированного выделения токенов, чтобы уменьшить избыточность данных и сохранить семантику подпространств. ## Результаты Мы проверили наш фреймворк на нескольких задачах, включая диагностику, прогноз показателей процесса болезни и прогноз выживаемости. Мы сравнили наш подход со существующими методами и показали значительные преимущества в точности и эффективности. Наши результаты показали, что метод может эффективно обрабатывать сложные мультимодальные данные, где попытки использовать стандартные подходы не принесли такой уровень успеха. ## Значимость Наш подход может быть применен в клинической практике для более точной диагностики, персонализированных прогнозов и выбора терапии. Он предлагает повышенную точность и эффективность по сравнению с существующими подходами. Будущие исследования будут направлены на расширение применения этого подхода на другие области в медицине и научных областях, где требуется обработка мультимодальных данных. ## Выводы Мы представили дисендентный мультимодальный фреймворк, который улучшает обработку и интеграцию данных в области лечения рака. Наши результаты показывают, что этот подход может решить ключевые проблемы мультимодального обучения. Мы продолжим работу над расширением этого подхода для других параллельных задач в клинической практике и естественных науках.

Abstract

Histopathology remains the gold standard for cancer diagnosis and prognosis. With the advent of transcriptome profiling, multi-modal learning combining transcriptomics with histology offers more comprehensive information. However, existing multi-modal approaches are challenged by intrinsic multi-modal heterogeneity, insufficient multi-scale integration, and reliance on paired data, restricting clinical applicability. To address these challenges, we propose a disentangled multi-modal framework with four contributions: 1) To mitigate multi-modal heterogeneity, we decompose WSIs and transcriptomes into tumor and microenvironment subspaces using a disentangled multi-modal fusion module, and introduce a confidence-guided gradient coordination strategy to balance subspace optimization. 2) To enhance multi-scale integration, we propose an inter-magnification gene-expression consistency strategy that aligns transcriptomic signals across WSI magnifications. 3) To reduce dependency on paired data, we propose a subspace knowledge distillation strategy enabling transcriptome-agnostic inference through a WSI-only student model. 4) To improve inference efficiency, we propose an informative token aggregation module that suppresses WSI redundancy while preserving subspace semantics. Extensive experiments on cancer diagnosis, prognosis, and survival prediction demonstrate our superiority over state-of-the-art methods across multiple settings. Code is available at https://github.com/helenypzhang/Disentangled-Multimodal-Learning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MICCAI STS 2024 Challenge: Semi-Supervised Instance-Level Tooth Segmentation in ...

When Do Domain-Specific Foundation Models Justify Their Cost? A Systematic Evalu...

Adversarial Multi-Task Learning for Liver Tumor Segmentation, Dynamic Enhancemen...

Not Quite Anything: Overcoming SAMs Limitations for 3D Medical Imaging

Shape-Adapting Gated Experts: Dynamic Expert Routing for Colonoscopic Lesion Seg...

Навигация