No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning
2509.18938v1
cs.CV, cs.AI, cs.LG
2025-09-25
Авторы:
Matheus Vinícius Todescato, Joel Luís Carbonera
Резюме на русском
#### Контекст
Глубокое обучение, включая глубокие сверточные сети (Convolutional Neural Networks, CNNs) и трансформаторы для обработки изображений (Vision Transformers, ViTs), достигло выдающихся результатов в задачах классификации изображений. Однако эти технологии часто требуют больших объемов этикетированных данных для эффективного обучения, что ограничивает их применение в сценариях, где такие данные отсутствуют. Одним из выходов из этой ситуации могут являться зеркально-языковые модели (Vision-Language Models, VLMs) и трансферное обучение с предварительно обученными моделями. Несмотря на эти преимущества, имеются проблемы, связанные с необходимостью постоянного взаимодействия между моделями и большими объемами данных, что приводит к сложностям в тестировании и работе в реальных условиях. Данная работа предлагает новую модель для решения проблемы классификации изображений без меток, которая может динамически адаптироваться к задаче без постоянного взаимодействия с моделями.
#### Метод
Предлагаемая модель основывается на самостоятельном обучении с использованием визуальных трансформаторов. Она не требует традиционных меток для обучения и может применяться для любых классов с использованием только их названий. Метод включает два основных элемента: 1) предварительно обученную визуальную модель, которая выделяет визуальные признаки, и 2) механизм самостоятельного обучения, позволяющий обновлять классификатор на основе высококонфидентных тестовых семплов. Эти высококонфидентные семплы образуются с помощью метода генерирования псевдометок, основанного на уровне уверенности модели. Используя эти псевдометки, самообучающийся классификатор обучается непосредственно на тестовых данных, что позволяет динамически адаптироваться к задаче. Избегается тюнинг модели трансформаторов, что упрощает и ускоряет процесс обучения.
#### Результаты
За счет использования подхода с самостоятельным обучением и высококонфидентного псевдометки, модель показала свое превосходство на 10 различных датасетах. Модель была сравнена с базовой стратегией нулевого запуска (zero-shot), и демонстрировала значительные повышения точности и устойчивости к изменению классов. Эксперименты показали, что модель может значительно улучшить результаты классификации, даже в условиях нехватки традиционных меток. Изучены различные визуальные и семантические представления, и продемонстрирована их эффективность в обучении классификатора на новых данных.
#### Значимость
Предлагаемый подход может быть применен в сценариях, где традиционные метки отсутствуют или требуют дополнительных затрат. Он пока
Abstract
While deep learning, including Convolutional Neural Networks (CNNs) and
Vision Transformers (ViTs), has significantly advanced classification
performance, its typical reliance on extensive annotated datasets presents a
major obstacle in many practical scenarios where such data is scarce.
Vision-language models (VLMs) and transfer learning with pre-trained visual
models appear as promising techniques to deal with this problem. This paper
proposes a novel zero-shot image classification framework that combines a VLM
and a pre-trained visual model within a self-learning cycle. Requiring only the
set of class names and no labeled training data, our method utilizes a
confidence-based pseudo-labeling strategy to train a lightweight classifier
directly on the test data, enabling dynamic adaptation. The VLM identifies
high-confidence samples, and the pre-trained visual model enhances their visual
representations. These enhanced features then iteratively train the classifier,
allowing the system to capture complementary semantic and visual cues without
supervision. Notably, our approach avoids VLM fine-tuning and the use of large
language models, relying on the visual-only model to reduce the dependence on
semantic representation. Experimental evaluations on ten diverse datasets
demonstrate that our approach outperforms the baseline zero-shot method.
Ссылки и действия
Дополнительные ресурсы: