Nexus-INR: Diverse Knowledge-guided Arbitrary-Scale Multimodal Medical Image Super-Resolution

2508.03073v1 eess.IV, cs.CV 2025-08-09
Авторы:

Bo Zhang, JianFei Huo, Zheng Zhang, Wufan Wang, Hui Gao, Xiangyang Gong, Wendong Wang

Резюме на русском

Задача суперрезолюции медицинских изображений с произвольными разрешениями (ARSR) является важной для лучшего анализа медицинских снимков, но существующие CNN-методы страдают от невозможности адаптации к произвольным множителям масштабирования. INR-методы решают эту проблему, однако сталкиваются с трудностями в обработке многомодальных изображений с разными разрешениями и деталями. Мы предлагаем Nexus-INR — новую систему ARSR, основанную на семантических знаниях, которая объединяет различные источники знаний и задачи для повышения качества суперрезолюции. Она включает двухвинковую энкодерную структуру с задачей классификации для разделения общих и модально-специфических признаков, модуль классификации с использованием кросс-модального внимания для улучшения реконструкции низкого разрешения с помощью высокого, и интегрированный модуль сегментации для улучшения качества реконструкции и сводных задач. На данных BraTS2020 мы показали, что Nexus-INR превосходит состояние искусства по многим показателям.

Abstract

Arbitrary-resolution super-resolution (ARSR) provides crucial flexibility for medical image analysis by adapting to diverse spatial resolutions. However, traditional CNN-based methods are inherently ill-suited for ARSR, as they are typically designed for fixed upsampling factors. While INR-based methods overcome this limitation, they still struggle to effectively process and leverage multi-modal images with varying resolutions and details. In this paper, we propose Nexus-INR, a Diverse Knowledge-guided ARSR framework, which employs varied information and downstream tasks to achieve high-quality, adaptive-resolution medical image super-resolution. Specifically, Nexus-INR contains three key components. A dual-branch encoder with an auxiliary classification task to effectively disentangle shared anatomical structures and modality-specific features; a knowledge distillation module using cross-modal attention that guides low-resolution modality reconstruction with high-resolution reference, enhanced by self-supervised consistency loss; an integrated segmentation module that embeds anatomical semantics to improve both reconstruction quality and downstream segmentation performance. Experiments on the BraTS2020 dataset for both super-resolution and downstream segmentation demonstrate that Nexus-INR outperforms state-of-the-art methods across various metrics.

Ссылки и действия