S$^3$F-Net: A Multi-Modal Approach to Medical Image Classification via Spatial-Spectral Summarizer Fusion Network

2509.23442v1 eess.IV, cs.AI, cs.CV, cs.LG, eess.SP 2025-10-01
Авторы:

Md. Saiful Bari Siddiqui, Mohammed Imamul Hassan Bhuiyan

Резюме на русском

#### Контекст Классификация медицинских изображений является ключевым заданием в области медицинского искусственного интеллекта, так как она позволяет выявлять ранние признаки патологий, улучшая тем самым прогностические и лечебные возможности. Однако существующие подходы, основанные на Convolutional Neural Networks (CNNs), часто ограничиваются пространственными функциями и неэффективны в сфере глобальных изображений. Значительная часть информации в изображениях находится в частотном домене, однако эти факторы недостаточно учитываются в существующих методах. Это влечет за собой нужду в развитии подходов, которые могут эффективно объединить пространственные и частотные функции для повышения точности и обобщаемости. #### Метод Мы предлагаем **S$^3$F-Net** — двухветвный фреймворк, который способен одновременно извлекать пространственные и частотные признаки. Основным компонентом является **SpectraNet**, легковесная сеть, которая применяет **SpectralFilter**, основанный на теореме Фурье. Он преобразует изображение в частотный домен с помощью фильтров, сгенерированных с помощью обучения. Эти фильтры быстро охватывают всю область входного изображения, позволяя SpectraNet эффективно извлекать частотные признаки. Далее, **Bilinear Fusion** или **Concatenation Fusion** объединяют пространственные и частотные данные, улучшая понимание взаимосвязей между ними. Эта архитектура позволяет S$^3$F-Net эффективно работать на разных медицинских изображениях. #### Результаты Мы проверили S$^3$F-Net на четырёх наборах данных медицинских изображений, включая типовые модальности, такие как рентгеновские снимки и маркерные изображения. Наш фреймворк показал существенные улучшения в точности классификации по сравнению с лучшими существующими моделями. На BRISC2025-dataset S$^3$F-Net достиг 98.76%, став соревновательным по результатам с новыми достижениями в сфере. На Chest X-Ray Pneumonia данная модель показала 93.11%, превосходя другие модели. Дополнительные анализы показали, что S$^3$F-Net динамически регулирует свой подход в зависимости от характера патологии, что демонстрирует высокую обобщаемость и осмысленность. #### Значимость Этот подход может использоваться в различных медицинских применениях, включая раннее выявление заболеваний, оценку течения терапии и создание инструментов для помощи врачам. Основные преимущества S$^3$F-Net заключаются в его мощности и обобщаемости, способности эффективно объединять глобальные частотные и пространственные признаки. Это может привести к значительным улучшениям в сфере диагностики и помочь в развитии новых ме

Abstract

Convolutional Neural Networks have become a cornerstone of medical image analysis due to their proficiency in learning hierarchical spatial features. However, this focus on a single domain is inefficient at capturing global, holistic patterns and fails to explicitly model an image's frequency-domain characteristics. To address these challenges, we propose the Spatial-Spectral Summarizer Fusion Network (S$^3$F-Net), a dual-branch framework that learns from both spatial and spectral representations simultaneously. The S$^3$F-Net performs a fusion of a deep spatial CNN with our proposed shallow spectral encoder, SpectraNet. SpectraNet features the proposed SpectralFilter layer, which leverages the Convolution Theorem by applying a bank of learnable filters directly to an image's full Fourier spectrum via a computation-efficient element-wise multiplication. This allows the SpectralFilter layer to attain a global receptive field instantaneously, with its output being distilled by a lightweight summarizer network. We evaluate S$^3$F-Net across four medical imaging datasets spanning different modalities to validate its efficacy and generalizability. Our framework consistently and significantly outperforms its strong spatial-only baseline in all cases, with accuracy improvements of up to 5.13%. With a powerful Bilinear Fusion, S$^3$F-Net achieves a SOTA competitive accuracy of 98.76% on the BRISC2025 dataset. Concatenation Fusion performs better on the texture-dominant Chest X-Ray Pneumonia dataset, achieving 93.11% accuracy, surpassing many top-performing, much deeper models. Our explainability analysis also reveals that the S$^3$F-Net learns to dynamically adjust its reliance on each branch based on the input pathology. These results verify that our dual-domain approach is a powerful and generalizable paradigm for medical image analysis.

Ссылки и действия