SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation

2508.06429v1 cs.CV, cs.AI 2025-08-12
Авторы:

Guido Manni, Clemente Lauretti, Loredana Zollo, Paolo Soda

Резюме на русском

## Контекст В области медицинской иммиджинга ограниченная доступность меток усложняет обучение моделей, несмотря на высокую степень использования глубокого обучения в этой сфере. Недостаток меток приводит к снижению точности классификаторов и ограничивает применение глубокого обучения в клинической практике. Необходимость в эффективных методах обучения с небольшим количеством меток побудила затратить усилия на разработку новых подходов, которые могли бы успешно работать даже при ограниченных метаданных. ## Метод Предложенный подход основывается на генеративно-адверсарной сети (GAN) и предлагает трехэтапную модель обучения. Основные компоненты — генератор, реализующий класс-ориентированный перевод изображений; дискриминатор, оценивающий аутентичность изображений и выполняющий классификацию; и классификатор, отвечающий за прямое уточнение классов. Метод работает в трех фазах: начальное обучение с меньшим количеством меток, нейросетевое генерирование изображений для уточнения меток и последний этап переобучения. Важной особенностью является использование псевдомаркировок, которые объединяют предсказания дискриминатора и классификатора с использованием экспоненциального скользания для точности. ## Результаты Эксперименты проводились на 11 датасетах MedMNIST. Метод показал статистически значимый прогресс по сравнению с шестью современными методами в режимах от 5 до 50 меток на класс. Особенно выдающиеся результаты были получены в ситуации с 5-мя метками на класс, где необходимость меток является самой высокой. Такая эффективность достигается благодаря гибкой стратегии псевдомаркировки и использованию изображений в качестве входных данных вместо генерации из шума, что позволяет использовать большие объемы немаркированных данных. ## Значимость Предложенный подход имеет широкие применения в медицинских иммиджингах, где аннотации сложно получить из-за высоких требований к квалификации специалистов и высокой стоимости. Он позволяет повысить точность классификации даже при ограниченном количестве меток. Метод может быть применен в различных областях, таких как диагностика заболеваний и анализ иммиджинга рентгена, терапевтических данных и морфологических структур. Имеет потенциал для улучшения традиционных методов медицинской иммиджинга и снижения затрат на тренинг моделей, что может сделать глубокое обучение более доступным в клинической практике. ## Выводы Разработанная парадигма демонстрирует эффективность владения небольшим количеством меток и может стать решением для проблем недостатка данных в ме

Abstract

Deep learning has revolutionized medical imaging, but its effectiveness is severely limited by insufficient labeled training data. This paper introduces a novel GAN-based semi-supervised learning framework specifically designed for low labeled-data regimes, evaluated across settings with 5 to 50 labeled samples per class. Our approach integrates three specialized neural networks -- a generator for class-conditioned image translation, a discriminator for authenticity assessment and classification, and a dedicated classifier -- within a three-phase training framework. The method alternates between supervised training on limited labeled data and unsupervised learning that leverages abundant unlabeled images through image-to-image translation rather than generation from noise. We employ ensemble-based pseudo-labeling that combines confidence-weighted predictions from the discriminator and classifier with temporal consistency through exponential moving averaging, enabling reliable label estimation for unlabeled data. Comprehensive evaluation across eleven MedMNIST datasets demonstrates that our approach achieves statistically significant improvements over six state-of-the-art GAN-based semi-supervised methods, with particularly strong performance in the extreme 5-shot setting where the scarcity of labeled data is most challenging. The framework maintains its superiority across all evaluated settings (5, 10, 20, and 50 shots per class). Our approach offers a practical solution for medical imaging applications where annotation costs are prohibitive, enabling robust classification performance even with minimal labeled data. Code is available at https://github.com/GuidoManni/SPARSE.

Ссылки и действия