No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning

2509.18938v1 cs.CV, cs.AI, cs.LG 2025-09-25
Авторы:

Matheus Vinícius Todescato, Joel Luís Carbonera

Резюме на русском

#### Контекст Глубокое обучение, включая глубокие сверточные сети (Convolutional Neural Networks, CNNs) и трансформаторы для обработки изображений (Vision Transformers, ViTs), достигло выдающихся результатов в задачах классификации изображений. Однако эти технологии часто требуют больших объемов этикетированных данных для эффективного обучения, что ограничивает их применение в сценариях, где такие данные отсутствуют. Одним из выходов из этой ситуации могут являться зеркально-языковые модели (Vision-Language Models, VLMs) и трансферное обучение с предварительно обученными моделями. Несмотря на эти преимущества, имеются проблемы, связанные с необходимостью постоянного взаимодействия между моделями и большими объемами данных, что приводит к сложностям в тестировании и работе в реальных условиях. Данная работа предлагает новую модель для решения проблемы классификации изображений без меток, которая может динамически адаптироваться к задаче без постоянного взаимодействия с моделями. #### Метод Предлагаемая модель основывается на самостоятельном обучении с использованием визуальных трансформаторов. Она не требует традиционных меток для обучения и может применяться для любых классов с использованием только их названий. Метод включает два основных элемента: 1) предварительно обученную визуальную модель, которая выделяет визуальные признаки, и 2) механизм самостоятельного обучения, позволяющий обновлять классификатор на основе высококонфидентных тестовых семплов. Эти высококонфидентные семплы образуются с помощью метода генерирования псевдометок, основанного на уровне уверенности модели. Используя эти псевдометки, самообучающийся классификатор обучается непосредственно на тестовых данных, что позволяет динамически адаптироваться к задаче. Избегается тюнинг модели трансформаторов, что упрощает и ускоряет процесс обучения. #### Результаты За счет использования подхода с самостоятельным обучением и высококонфидентного псевдометки, модель показала свое превосходство на 10 различных датасетах. Модель была сравнена с базовой стратегией нулевого запуска (zero-shot), и демонстрировала значительные повышения точности и устойчивости к изменению классов. Эксперименты показали, что модель может значительно улучшить результаты классификации, даже в условиях нехватки традиционных меток. Изучены различные визуальные и семантические представления, и продемонстрирована их эффективность в обучении классификатора на новых данных. #### Значимость Предлагаемый подход может быть применен в сценариях, где традиционные метки отсутствуют или требуют дополнительных затрат. Он пока

Abstract

While deep learning, including Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs), has significantly advanced classification performance, its typical reliance on extensive annotated datasets presents a major obstacle in many practical scenarios where such data is scarce. Vision-language models (VLMs) and transfer learning with pre-trained visual models appear as promising techniques to deal with this problem. This paper proposes a novel zero-shot image classification framework that combines a VLM and a pre-trained visual model within a self-learning cycle. Requiring only the set of class names and no labeled training data, our method utilizes a confidence-based pseudo-labeling strategy to train a lightweight classifier directly on the test data, enabling dynamic adaptation. The VLM identifies high-confidence samples, and the pre-trained visual model enhances their visual representations. These enhanced features then iteratively train the classifier, allowing the system to capture complementary semantic and visual cues without supervision. Notably, our approach avoids VLM fine-tuning and the use of large language models, relying on the visual-only model to reduce the dependence on semantic representation. Experimental evaluations on ten diverse datasets demonstrate that our approach outperforms the baseline zero-shot method.

Ссылки и действия