MMIS-Net for Retinal Fluid Segmentation and Detection

2508.13936v1 eess.IV, cs.CV 2025-08-21
Авторы:

Nchongmaje Ndipenocha, Alina Mirona, Kezhi Wanga, Yongmin Li

Резюме на русском

## Контекст Исследования в области глубокого обучения на медицинских изображениях становятся все более важными для повышения точности диагностики и лечения различных заболеваний. Однако существуют проблемы, связанные с ограниченностью многих методов, которые обычно обучаются и тестируются на ограниченных данных определенного вида заболеваний, органа или модальности изображений. Эта ограниченность не позволяет использовать всю полезность доступных медицинских изображений, включая данные из различных модальностей и органов. Наша мотивация заключается в развитии модели, которая сможет объединить сочетание множества медицинских изображений для повышения общей точности и обобщаемости. ## Метод Мы предлагаем **MMIS-Net (MultiModal Medical Image Segmentation Network)** — модель, основанную на нейросети, которая использует **Similarity Fusion blocks**. Эти блоки объединяют различные изображения путем супервайзедного фуззинга и выбора схожих пикселей для фуззинга. Таким образом, модель может использовать сильные стороны каждого изображения. Мы также разработали **однозначное метки-объекты (one-hot label space)**, чтобы устранить проблему несоответствия или конфликта между классами из разных датасетов. Эта модель была обучена на 10 различных медицинских датасетах, которые включают 19 органов и 2 модальности изображений. ## Результаты Мы проверили MMIS-Net на задаче сегментации жидкости в глазных каналах (RETOUCH grand challenge) и сравнили результаты с другими современными моделями. Наша модель показала лучший **mean Dice score** равный 0.83 и **absolute volume difference** в 0.035. Для задачи детекции жидкости, модель достигла **perfect Area Under the Curve (AUC)** равного 1. Эти результаты доказывают высокую точность, гибкость и мощь MMIS-Net при обработке медицинских изображений. ## Значимость Модель MMIS-Net может быть применена в различных областях медицинской информатики, включая сегментацию и детекцию заболеваний на основе медицинских изображений. Основные преимущества в том, что модель объединяет данные из разных источников, адаптируется к нескольким классам и модальностям изображений. Это увеличивает общую точность и позволяет использовать MMIS-Net для диагностики различных заболеваний. Будущие исследования будут ориентированы на улучшение точности и дальнейшее применение модели в различных медицинских задачах. ## Выводы Мы доказали, что модель MMIS-Net эффективна благодаря интеграции **Similarity Fusion blocks**, которые улучшают супервайзедное обучение, и **однозначному меткам-объектам**, что позволяет устранить проблемы несоответствия классов в разных датасетах. Эти достижения открывают новые возможности для улучшения диагностики и лечения различных заболеваний с

Abstract

Purpose: Deep learning methods have shown promising results in the segmentation, and detection of diseases in medical images. However, most methods are trained and tested on data from a single source, modality, organ, or disease type, overlooking the combined potential of other available annotated data. Numerous small annotated medical image datasets from various modalities, organs, and diseases are publicly available. In this work, we aim to leverage the synergistic potential of these datasets to improve performance on unseen data. Approach: To this end, we propose a novel algorithm called MMIS-Net (MultiModal Medical Image Segmentation Network), which features Similarity Fusion blocks that utilize supervision and pixel-wise similarity knowledge selection for feature map fusion. Additionally, to address inconsistent class definitions and label contradictions, we created a one-hot label space to handle classes absent in one dataset but annotated in another. MMIS-Net was trained on 10 datasets encompassing 19 organs across 2 modalities to build a single model. Results: The algorithm was evaluated on the RETOUCH grand challenge hidden test set, outperforming large foundation models for medical image segmentation and other state-of-the-art algorithms. We achieved the best mean Dice score of 0.83 and an absolute volume difference of 0.035 for the fluids segmentation task, as well as a perfect Area Under the Curve of 1 for the fluid detection task. Conclusion: The quantitative results highlight the effectiveness of our proposed model due to the incorporation of Similarity Fusion blocks into the network's backbone for supervision and similarity knowledge selection, and the use of a one-hot label space to address label class inconsistencies and contradictions.

Ссылки и действия