Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning
2508.16882v1
eess.IV, cs.CV
2025-08-27
Авторы:
Junhao Wu, Yun Li, Junhao Li, Jingliang Bian, Xiaomao Fan, Wenbin Lei, Ruxin Wang
Резюме на русском
#### Контекст
Анализ медицинских изображений, особенно в области сегментации тканей и знаков заболеваний, является ключевым элементом в диагностике и терапии различных заболеваний. Особенно важной является сегментация лёгочно-фарингеальных туморов, так как точность этой процедуры влияет на качество диагностики и терапии. До сих пор, многие методы анализа изображений ограничиваются одним модальным изображением, что не позволяет полностью учесть все анатомические и патологические особенности. Наша работа направляется на развитие методов, которые бы учитывали не только 2D White Light Imaging (WLI), но и Narrow Band Imaging (NBI) для повышения точности сегментации.
#### Метод
Разработанная модель основывается на `Align-Disentangle-Fusion` механизме, который объединяет 2D WLI и NBI изображения в единое пространство. Основной принцип — это многоуровневый дистрибутивный выравниваний, который помогает устранить расхождения модальностей, используя блоки преобразования на нескольких уровнях. Однако главные инновации заключаются в стратегии прогрессивной фичи дисентеглирования. Это означает, что используется предварительное дисентеглирование и контрастное обучение, чтобы отделить модальность-специфичные и общие черты. Это позволяет эффективно обучаться в условиях многомодального анализа и объединять на выходе семантические признаки.
#### Результаты
Мы проверили нашу модель на нескольких наборах данных и сравнили результаты с текущими методами. Метод показал себя лучше в показателях точности сегментации на всех датасетах. Это демонстрирует его надежность и эффективность в различных реальных клинических сценариях. Такие результаты подтверждают пользу этого подхода в медицинском анализе изображений.
#### Значимость
Наш подход может быть применен в различных областях медицины, включая диагностику и оперативное вмешательство. Он обеспечивает более точный анализ изображений, что повышает качество диагностики. Одним из основных преимуществ является улучшение точности сегментации, что делает его полезным для медиков, а также для разработчиков медицинских решений.
#### Выводы
Нами был предложен новый подход к многомодальному анализу изображений в области медицины, основанный на `Align-Disentangle-Fusion` механизме. Мы показали, что наш метод более точен и эффективен в сравнении с другими методами. Наше исследование открывает пути для дальнейшего развития методов медицинского анализа, в том числе использования новых модальностей изображений для более точного диагностического анализа.
Abstract
Accurate segmentation of laryngo-pharyngeal tumors is crucial for precise
diagnosis and effective treatment planning. However, traditional
single-modality imaging methods often fall short of capturing the complex
anatomical and pathological features of these tumors. In this study, we present
an innovative multi-modality representation learning framework based on the
`Align-Disentangle-Fusion' mechanism that seamlessly integrates 2D White Light
Imaging (WLI) and Narrow Band Imaging (NBI) pairs to enhance segmentation
performance. A cornerstone of our approach is multi-scale distribution
alignment, which mitigates modality discrepancies by aligning features across
multiple transformer layers. Furthermore, a progressive feature disentanglement
strategy is developed with the designed preliminary disentanglement and
disentangle-aware contrastive learning to effectively separate
modality-specific and shared features, enabling robust multimodal contrastive
learning and efficient semantic fusion. Comprehensive experiments on multiple
datasets demonstrate that our method consistently outperforms state-of-the-art
approaches, achieving superior accuracy across diverse real clinical scenarios.
Ссылки и действия
Дополнительные ресурсы: