Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization
2508.16479v1
eess.IV, cs.AI, cs.CV
2025-08-26
Авторы:
Yupei Zhang, Xiaofei Wang, Anran Liu, Lequan Yu, Chao Li
Резюме на русском
## Контекст
Histopathology остается золотым стандартом для диагностики и прогноза рака. С появлением профилирования транскриптома, мультимодальное обучение, объединяющее транскриптомы с историей, дает более полную картину. Однако существующие мультимодальные подходы сталкиваются с проблемами, такими как внутренняя неоднородность модальностей, недостаточность интеграции на разных масштабах и зависимость от парных данных. Эти ограничения ограничивают клиническую применимость таких подходов. Мы предлагаем дисендентный мультимодальный фреймворк, который оптимизирует выделение информационных подпространств и улучшает интеграцию и обработку данных.
## Метод
Мы предлагаем дисендентный фреймворк, состоящий из четырех основных компонентов. Во-первых, мы разделяем изображения выделяемых из образов на видеомагнификации (WSIs) и профили транскриптома на туберовая и микросредовые подпространства с помощью дисендентного модуля слияния. Во-вторых, мы предлагаем стратегию оптимизации, использующую совместное уточнение подпространств. В-третьих, мы предлагаем стратегию уменьшения зависимости от парных данных, используя подготовленные подпространства для прогнозирования без необходимости парных данных. В-четвертых, мы предлагаем модуль сгруппированного выделения токенов, чтобы уменьшить избыточность данных и сохранить семантику подпространств.
## Результаты
Мы проверили наш фреймворк на нескольких задачах, включая диагностику, прогноз показателей процесса болезни и прогноз выживаемости. Мы сравнили наш подход со существующими методами и показали значительные преимущества в точности и эффективности. Наши результаты показали, что метод может эффективно обрабатывать сложные мультимодальные данные, где попытки использовать стандартные подходы не принесли такой уровень успеха.
## Значимость
Наш подход может быть применен в клинической практике для более точной диагностики, персонализированных прогнозов и выбора терапии. Он предлагает повышенную точность и эффективность по сравнению с существующими подходами. Будущие исследования будут направлены на расширение применения этого подхода на другие области в медицине и научных областях, где требуется обработка мультимодальных данных.
## Выводы
Мы представили дисендентный мультимодальный фреймворк, который улучшает обработку и интеграцию данных в области лечения рака. Наши результаты показывают, что этот подход может решить ключевые проблемы мультимодального обучения. Мы продолжим работу над расширением этого подхода для других параллельных задач в клинической практике и естественных науках.
Abstract
Histopathology remains the gold standard for cancer diagnosis and prognosis.
With the advent of transcriptome profiling, multi-modal learning combining
transcriptomics with histology offers more comprehensive information. However,
existing multi-modal approaches are challenged by intrinsic multi-modal
heterogeneity, insufficient multi-scale integration, and reliance on paired
data, restricting clinical applicability. To address these challenges, we
propose a disentangled multi-modal framework with four contributions: 1) To
mitigate multi-modal heterogeneity, we decompose WSIs and transcriptomes into
tumor and microenvironment subspaces using a disentangled multi-modal fusion
module, and introduce a confidence-guided gradient coordination strategy to
balance subspace optimization. 2) To enhance multi-scale integration, we
propose an inter-magnification gene-expression consistency strategy that aligns
transcriptomic signals across WSI magnifications. 3) To reduce dependency on
paired data, we propose a subspace knowledge distillation strategy enabling
transcriptome-agnostic inference through a WSI-only student model. 4) To
improve inference efficiency, we propose an informative token aggregation
module that suppresses WSI redundancy while preserving subspace semantics.
Extensive experiments on cancer diagnosis, prognosis, and survival prediction
demonstrate our superiority over state-of-the-art methods across multiple
settings. Code is available at
https://github.com/helenypzhang/Disentangled-Multimodal-Learning.
Ссылки и действия
Дополнительные ресурсы: