SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation
2508.06429v1
cs.CV, cs.AI
2025-08-12
Авторы:
Guido Manni, Clemente Lauretti, Loredana Zollo, Paolo Soda
Резюме на русском
## Контекст
В области медицинской иммиджинга ограниченная доступность меток усложняет обучение моделей, несмотря на высокую степень использования глубокого обучения в этой сфере. Недостаток меток приводит к снижению точности классификаторов и ограничивает применение глубокого обучения в клинической практике. Необходимость в эффективных методах обучения с небольшим количеством меток побудила затратить усилия на разработку новых подходов, которые могли бы успешно работать даже при ограниченных метаданных.
## Метод
Предложенный подход основывается на генеративно-адверсарной сети (GAN) и предлагает трехэтапную модель обучения. Основные компоненты — генератор, реализующий класс-ориентированный перевод изображений; дискриминатор, оценивающий аутентичность изображений и выполняющий классификацию; и классификатор, отвечающий за прямое уточнение классов. Метод работает в трех фазах: начальное обучение с меньшим количеством меток, нейросетевое генерирование изображений для уточнения меток и последний этап переобучения. Важной особенностью является использование псевдомаркировок, которые объединяют предсказания дискриминатора и классификатора с использованием экспоненциального скользания для точности.
## Результаты
Эксперименты проводились на 11 датасетах MedMNIST. Метод показал статистически значимый прогресс по сравнению с шестью современными методами в режимах от 5 до 50 меток на класс. Особенно выдающиеся результаты были получены в ситуации с 5-мя метками на класс, где необходимость меток является самой высокой. Такая эффективность достигается благодаря гибкой стратегии псевдомаркировки и использованию изображений в качестве входных данных вместо генерации из шума, что позволяет использовать большие объемы немаркированных данных.
## Значимость
Предложенный подход имеет широкие применения в медицинских иммиджингах, где аннотации сложно получить из-за высоких требований к квалификации специалистов и высокой стоимости. Он позволяет повысить точность классификации даже при ограниченном количестве меток. Метод может быть применен в различных областях, таких как диагностика заболеваний и анализ иммиджинга рентгена, терапевтических данных и морфологических структур. Имеет потенциал для улучшения традиционных методов медицинской иммиджинга и снижения затрат на тренинг моделей, что может сделать глубокое обучение более доступным в клинической практике.
## Выводы
Разработанная парадигма демонстрирует эффективность владения небольшим количеством меток и может стать решением для проблем недостатка данных в ме
Abstract
Deep learning has revolutionized medical imaging, but its effectiveness is
severely limited by insufficient labeled training data. This paper introduces a
novel GAN-based semi-supervised learning framework specifically designed for
low labeled-data regimes, evaluated across settings with 5 to 50 labeled
samples per class. Our approach integrates three specialized neural networks --
a generator for class-conditioned image translation, a discriminator for
authenticity assessment and classification, and a dedicated classifier --
within a three-phase training framework. The method alternates between
supervised training on limited labeled data and unsupervised learning that
leverages abundant unlabeled images through image-to-image translation rather
than generation from noise. We employ ensemble-based pseudo-labeling that
combines confidence-weighted predictions from the discriminator and classifier
with temporal consistency through exponential moving averaging, enabling
reliable label estimation for unlabeled data. Comprehensive evaluation across
eleven MedMNIST datasets demonstrates that our approach achieves statistically
significant improvements over six state-of-the-art GAN-based semi-supervised
methods, with particularly strong performance in the extreme 5-shot setting
where the scarcity of labeled data is most challenging. The framework maintains
its superiority across all evaluated settings (5, 10, 20, and 50 shots per
class). Our approach offers a practical solution for medical imaging
applications where annotation costs are prohibitive, enabling robust
classification performance even with minimal labeled data. Code is available at
https://github.com/GuidoManni/SPARSE.
Ссылки и действия
Дополнительные ресурсы: