Efficient Multi-Slide Visual-Language Feature Fusion for Placental Disease Classification
2508.03277v1
cs.CV
2025-08-09
Авторы:
Hang Guo, Qing Zhang, Zixuan Gao, Siyuan Yang, Shulin Peng, Xiang Tao, Ting Yu, Yan Wang, Qingli Li
Резюме на русском
Точное предсказание заболеваний плаценты с помощью целых слайдов изображений (WSIs) является критически важной задачей для предотвращения серьезных материнских и плодами последствий. Однако анализ таких изображений представляет собой вычислительные трудности из-за огромного объема данных. На сегодняшний день существующие способы классификации WSI сталкиваются с двумя основными проблемами: неэффективные стратегии выбора патчей, которые либо снижают точность, либо не позволяют существенно уменьшить вычислительные затраты, и утрата глобального контекста гистологической картины в результате работы на уровне патчей. Мы предлагаем EmmPD — эффективный мультимодальный подход для диагностики заболеваний плаценты на пациентском уровне. Наша модель включает модуль двухэтапного выбора патчей, который объединяет параметр-свободные и обучаемые стратегии сжатия, обеспечивая оптимальный баланс между вычислительной эффективностью и сохранением ключевых признаков. Более того, мы разработали модуль мультимодальной фускии, использующий адаптивное графовое обучение для улучшения патологических признаков и включающий текстовые медицинские отчеты для расширения контекста. Эксперименты показали, что EmmPD достигает лучших результатов по сравнению с другими методами на нескольких наборах данных.
Abstract
Accurate prediction of placental diseases via whole slide images (WSIs) is
critical for preventing severe maternal and fetal complications. However, WSI
analysis presents significant computational challenges due to the massive data
volume. Existing WSI classification methods encounter critical limitations: (1)
inadequate patch selection strategies that either compromise performance or
fail to sufficiently reduce computational demands, and (2) the loss of global
histological context resulting from patch-level processing approaches. To
address these challenges, we propose an Efficient multimodal framework for
Patient-level placental disease Diagnosis, named EmmPD. Our approach introduces
a two-stage patch selection module that combines parameter-free and learnable
compression strategies, optimally balancing computational efficiency with
critical feature preservation. Additionally, we develop a hybrid multimodal
fusion module that leverages adaptive graph learning to enhance pathological
feature representation and incorporates textual medical reports to enrich
global contextual understanding. Extensive experiments conducted on both a
self-constructed patient-level Placental dataset and two public datasets
demonstrating that our method achieves state-of-the-art diagnostic performance.
The code is available at https://github.com/ECNU-MultiDimLab/EmmPD.
Ссылки и действия
Дополнительные ресурсы: