Dual-Model Weight Selection and Self-Knowledge Distillation for Medical Image Classification

2508.20461v1 cs.CV, cs.AI, cs.LG 2025-08-29
Авторы:

Ayaka Tsutsumi, Guang Li, Ren Togo, Takahiro Ogawa, Satoshi Kondo, Miki Haseyama

Резюме на русском

## Контекст В области медицинских изображений, автоматическая классификация заболеваний на основе изображений является ключевым вопросом, поскольку она позволяет улучшить точность диагноза и эффективность диагностики. Однако существуют две значительные проблемы: нехватка вычислительных ресурсов для развертывания объемных моделей и необходимость сохранения высокой точности даже при использовании компактных моделей. Эти ограничения влекут за собой значительные трудности в практической реализации. Легковесные модели, которые могут сохранять высокую точность и глубину анализа, являются критически важными для решения этих задач. ## Метод Метод, предложенный в работе, основывается на двух основных компонентах: стратегии двойного выбора весов моделей и самостоятельной вставке знаний (Self-Knowledge Distillation, SKD). Для начала используется большая предобученная модель, из которой извлекаются веса для инициализации двух легковесных моделей. Это позволяет эффективно передавать знания из большой модели в меньшие. Далее, применяется SKD, что позволяет эффективно обучать модели с разными начальными весами без дополнительных вычислительных затрат. Наконец, эти модели проходят фине-тюнинг для конкретных задач классификации медицинских изображений. Эта комбинация двух техник позволяет сохранять критическую информацию в легковесных моделях и повышает их точность и устойчивость. ## Результаты Исследования проводились на трех различных наборах данных: снимках рентгеновских изображений грудной клетки, компьютерных томограммах лёгких и магнитных резонансных сканнах мозга. Метод эффективно классифицировал различные заболевания, включая тяжелые, такие как Covid-19, туберкулёз и рак лёгких. Эксперименты показали, что наша модель показывает высокую точность и устойчивость по сравнению с другими текущими подходами. Особенно выгодно отличается наш подход в легковесных моделях, которые показывают почти одинаковую точность, но требуют меньших вычислительных ресурсов. ## Значимость Предложенный подход может быть распространен в различных медицинских задачах, таких как диагностика респираторных заболеваний, мозговых травм и других критически важных заболеваний. Он предлагает выгоды, такие как эффективность вычислений, уменьшение требований к ресурсам и сохранение высокой точности. Это может способствовать улучшению доступности медицинского анализа и диагностики в различных регионах, в том числе тех, где доступ к высокопроизводительным вычислительным системам ограничен. ## Выводы Мы указали, что наш метод, комбинирующий двойной выбор весов и

Abstract

We propose a novel medical image classification method that integrates dual-model weight selection with self-knowledge distillation (SKD). In real-world medical settings, deploying large-scale models is often limited by computational resource constraints, which pose significant challenges for their practical implementation. Thus, developing lightweight models that achieve comparable performance to large-scale models while maintaining computational efficiency is crucial. To address this, we employ a dual-model weight selection strategy that initializes two lightweight models with weights derived from a large pretrained model, enabling effective knowledge transfer. Next, SKD is applied to these selected models, allowing the use of a broad range of initial weight configurations without imposing additional excessive computational cost, followed by fine-tuning for the target classification tasks. By combining dual-model weight selection with self-knowledge distillation, our method overcomes the limitations of conventional approaches, which often fail to retain critical information in compact models. Extensive experiments on publicly available datasets-chest X-ray images, lung computed tomography scans, and brain magnetic resonance imaging scans-demonstrate the superior performance and robustness of our approach compared to existing methods.

Ссылки и действия