S$^3$F-Net: A Multi-Modal Approach to Medical Image Classification via Spatial-Spectral Summarizer Fusion Network
2509.23442v1
eess.IV, cs.AI, cs.CV, cs.LG, eess.SP
2025-10-01
Авторы:
Md. Saiful Bari Siddiqui, Mohammed Imamul Hassan Bhuiyan
Резюме на русском
#### Контекст
Классификация медицинских изображений является ключевым заданием в области медицинского искусственного интеллекта, так как она позволяет выявлять ранние признаки патологий, улучшая тем самым прогностические и лечебные возможности. Однако существующие подходы, основанные на Convolutional Neural Networks (CNNs), часто ограничиваются пространственными функциями и неэффективны в сфере глобальных изображений. Значительная часть информации в изображениях находится в частотном домене, однако эти факторы недостаточно учитываются в существующих методах. Это влечет за собой нужду в развитии подходов, которые могут эффективно объединить пространственные и частотные функции для повышения точности и обобщаемости.
#### Метод
Мы предлагаем **S$^3$F-Net** — двухветвный фреймворк, который способен одновременно извлекать пространственные и частотные признаки. Основным компонентом является **SpectraNet**, легковесная сеть, которая применяет **SpectralFilter**, основанный на теореме Фурье. Он преобразует изображение в частотный домен с помощью фильтров, сгенерированных с помощью обучения. Эти фильтры быстро охватывают всю область входного изображения, позволяя SpectraNet эффективно извлекать частотные признаки. Далее, **Bilinear Fusion** или **Concatenation Fusion** объединяют пространственные и частотные данные, улучшая понимание взаимосвязей между ними. Эта архитектура позволяет S$^3$F-Net эффективно работать на разных медицинских изображениях.
#### Результаты
Мы проверили S$^3$F-Net на четырёх наборах данных медицинских изображений, включая типовые модальности, такие как рентгеновские снимки и маркерные изображения. Наш фреймворк показал существенные улучшения в точности классификации по сравнению с лучшими существующими моделями. На BRISC2025-dataset S$^3$F-Net достиг 98.76%, став соревновательным по результатам с новыми достижениями в сфере. На Chest X-Ray Pneumonia данная модель показала 93.11%, превосходя другие модели. Дополнительные анализы показали, что S$^3$F-Net динамически регулирует свой подход в зависимости от характера патологии, что демонстрирует высокую обобщаемость и осмысленность.
#### Значимость
Этот подход может использоваться в различных медицинских применениях, включая раннее выявление заболеваний, оценку течения терапии и создание инструментов для помощи врачам. Основные преимущества S$^3$F-Net заключаются в его мощности и обобщаемости, способности эффективно объединять глобальные частотные и пространственные признаки. Это может привести к значительным улучшениям в сфере диагностики и помочь в развитии новых ме
Abstract
Convolutional Neural Networks have become a cornerstone of medical image
analysis due to their proficiency in learning hierarchical spatial features.
However, this focus on a single domain is inefficient at capturing global,
holistic patterns and fails to explicitly model an image's frequency-domain
characteristics. To address these challenges, we propose the Spatial-Spectral
Summarizer Fusion Network (S$^3$F-Net), a dual-branch framework that learns
from both spatial and spectral representations simultaneously. The S$^3$F-Net
performs a fusion of a deep spatial CNN with our proposed shallow spectral
encoder, SpectraNet. SpectraNet features the proposed SpectralFilter layer,
which leverages the Convolution Theorem by applying a bank of learnable filters
directly to an image's full Fourier spectrum via a computation-efficient
element-wise multiplication. This allows the SpectralFilter layer to attain a
global receptive field instantaneously, with its output being distilled by a
lightweight summarizer network. We evaluate S$^3$F-Net across four medical
imaging datasets spanning different modalities to validate its efficacy and
generalizability. Our framework consistently and significantly outperforms its
strong spatial-only baseline in all cases, with accuracy improvements of up to
5.13%. With a powerful Bilinear Fusion, S$^3$F-Net achieves a SOTA competitive
accuracy of 98.76% on the BRISC2025 dataset. Concatenation Fusion performs
better on the texture-dominant Chest X-Ray Pneumonia dataset, achieving 93.11%
accuracy, surpassing many top-performing, much deeper models. Our
explainability analysis also reveals that the S$^3$F-Net learns to dynamically
adjust its reliance on each branch based on the input pathology. These results
verify that our dual-domain approach is a powerful and generalizable paradigm
for medical image analysis.