Beyond Instance Consistency: Investigating View Diversity in Self-supervised Learning

2509.11344v1 cs.CV, cs.LG 2025-09-17
Авторы:

Huaiyuan Qin, Muli Yang, Siyuan Hu, Peng Hu, Yu Zhang, Chen Gong, Hongyuan Zhu

Резюме на русском

## Контекст Self-supervised learning (SSL) — это метод обучения, который позволяет автоматически формировать представления объектов изображений без явного маркирования. Основное предположение SSL — что разные виды одного изображения могут рассматриваться как положительные пары. Это предположение действует в случаях, когда виды изображения содержат похожую информацию. Однако на практике это не всегда возможно, особенно для нейтральных изображений, где разные виды могут представлять разные объекты или сущности. Это создает проблему для SSL, так как принципы, которые работают для стандартных задач, могут быть неэффективными для нейтральных данных. В настоящей работе мы исследуем эффективность SSL в таких ситуациях и исследуем, насколько разнообразие видов может повлиять на обучение. ## Метод Для исследования SSL без гарантии строгого согласования видов мы использовали несколько экспериментов. На первом этапе вводилась ситуация, когда разные виды изображений не имели строгого согласования по смыслу. Далее, мы изменяли размер ключевых объектов, использовали различные ключевые размеры и изображения с меньшими размерами. Также мы проводили анализ уровня диапазона разнообразия видов и сравнивали разные метрики, такие как Earth Mover's Distance (EMD), для оценки взаимосвязи между видами. Для получения результатов мы использовали стандартные данные, такие как CIFAR-10 и ImageNet, а также проводили анализ по сетям, таким как MoCo и SimCLR. ## Результаты Мы провели ряд экспериментов для оценки эффективности SSL без строгого согласования видов. Наши результаты показали, что SSL может продолжать работать даже при отсутствии согласования видов. Мы также обнаружили, что увеличение разнообразия видов может улучшить производительность SSL на задачах классификации и детектирования. Однако при слишком большом разнообразии видов также могут возникнуть проблемы, так как это может привести к некорректному семантическому представлению. Мы использовали метрику Earth Mover's Distance (EMD) для измерения взаимосвязи между видами и обнаружили, что оптимальный диапазон разнообразия может привести к лучшей производительности. ## Значимость Наша работа имеет высокую значимость для развития SSL в ситуациях, когда строгого согласования видов недоступно. Мы продемонстрировали, что SSL может быть эффективен даже в сложных сценариях. Благодаря нашему подходу можно избежать ситуаций, когда разные виды изображений не имеют значимости. Это может быть полезно для разных применений, таких как здоровье, распознавание образов и обработка изображений. Наша работа также открывает новые возможности для разви

Abstract

Self-supervised learning (SSL) conventionally relies on the instance consistency paradigm, assuming that different views of the same image can be treated as positive pairs. However, this assumption breaks down for non-iconic data, where different views may contain distinct objects or semantic information. In this paper, we investigate the effectiveness of SSL when instance consistency is not guaranteed. Through extensive ablation studies, we demonstrate that SSL can still learn meaningful representations even when positive pairs lack strict instance consistency. Furthermore, our analysis further reveals that increasing view diversity, by enforcing zero overlapping or using smaller crop scales, can enhance downstream performance on classification and dense prediction tasks. However, excessive diversity is found to reduce effectiveness, suggesting an optimal range for view diversity. To quantify this, we adopt the Earth Mover's Distance (EMD) as an estimator to measure mutual information between views, finding that moderate EMD values correlate with improved SSL learning, providing insights for future SSL framework design. We validate our findings across a range of settings, highlighting their robustness and applicability on diverse data sources.

Ссылки и действия