Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning

2508.16882v1 eess.IV, cs.CV 2025-08-27
Авторы:

Junhao Wu, Yun Li, Junhao Li, Jingliang Bian, Xiaomao Fan, Wenbin Lei, Ruxin Wang

Резюме на русском

#### Контекст Анализ медицинских изображений, особенно в области сегментации тканей и знаков заболеваний, является ключевым элементом в диагностике и терапии различных заболеваний. Особенно важной является сегментация лёгочно-фарингеальных туморов, так как точность этой процедуры влияет на качество диагностики и терапии. До сих пор, многие методы анализа изображений ограничиваются одним модальным изображением, что не позволяет полностью учесть все анатомические и патологические особенности. Наша работа направляется на развитие методов, которые бы учитывали не только 2D White Light Imaging (WLI), но и Narrow Band Imaging (NBI) для повышения точности сегментации. #### Метод Разработанная модель основывается на `Align-Disentangle-Fusion` механизме, который объединяет 2D WLI и NBI изображения в единое пространство. Основной принцип — это многоуровневый дистрибутивный выравниваний, который помогает устранить расхождения модальностей, используя блоки преобразования на нескольких уровнях. Однако главные инновации заключаются в стратегии прогрессивной фичи дисентеглирования. Это означает, что используется предварительное дисентеглирование и контрастное обучение, чтобы отделить модальность-специфичные и общие черты. Это позволяет эффективно обучаться в условиях многомодального анализа и объединять на выходе семантические признаки. #### Результаты Мы проверили нашу модель на нескольких наборах данных и сравнили результаты с текущими методами. Метод показал себя лучше в показателях точности сегментации на всех датасетах. Это демонстрирует его надежность и эффективность в различных реальных клинических сценариях. Такие результаты подтверждают пользу этого подхода в медицинском анализе изображений. #### Значимость Наш подход может быть применен в различных областях медицины, включая диагностику и оперативное вмешательство. Он обеспечивает более точный анализ изображений, что повышает качество диагностики. Одним из основных преимуществ является улучшение точности сегментации, что делает его полезным для медиков, а также для разработчиков медицинских решений. #### Выводы Нами был предложен новый подход к многомодальному анализу изображений в области медицины, основанный на `Align-Disentangle-Fusion` механизме. Мы показали, что наш метод более точен и эффективен в сравнении с другими методами. Наше исследование открывает пути для дальнейшего развития методов медицинского анализа, в том числе использования новых модальностей изображений для более точного диагностического анализа.

Abstract

Accurate segmentation of laryngo-pharyngeal tumors is crucial for precise diagnosis and effective treatment planning. However, traditional single-modality imaging methods often fall short of capturing the complex anatomical and pathological features of these tumors. In this study, we present an innovative multi-modality representation learning framework based on the `Align-Disentangle-Fusion' mechanism that seamlessly integrates 2D White Light Imaging (WLI) and Narrow Band Imaging (NBI) pairs to enhance segmentation performance. A cornerstone of our approach is multi-scale distribution alignment, which mitigates modality discrepancies by aligning features across multiple transformer layers. Furthermore, a progressive feature disentanglement strategy is developed with the designed preliminary disentanglement and disentangle-aware contrastive learning to effectively separate modality-specific and shared features, enabling robust multimodal contrastive learning and efficient semantic fusion. Comprehensive experiments on multiple datasets demonstrate that our method consistently outperforms state-of-the-art approaches, achieving superior accuracy across diverse real clinical scenarios.

Ссылки и действия