Beyond Instance Consistency: Investigating View Diversity in Self-supervised Learning
2509.11344v1
cs.CV, cs.LG
2025-09-17
Авторы:
Huaiyuan Qin, Muli Yang, Siyuan Hu, Peng Hu, Yu Zhang, Chen Gong, Hongyuan Zhu
Резюме на русском
## Контекст
Self-supervised learning (SSL) — это метод обучения, который позволяет автоматически формировать представления объектов изображений без явного маркирования. Основное предположение SSL — что разные виды одного изображения могут рассматриваться как положительные пары. Это предположение действует в случаях, когда виды изображения содержат похожую информацию. Однако на практике это не всегда возможно, особенно для нейтральных изображений, где разные виды могут представлять разные объекты или сущности. Это создает проблему для SSL, так как принципы, которые работают для стандартных задач, могут быть неэффективными для нейтральных данных. В настоящей работе мы исследуем эффективность SSL в таких ситуациях и исследуем, насколько разнообразие видов может повлиять на обучение.
## Метод
Для исследования SSL без гарантии строгого согласования видов мы использовали несколько экспериментов. На первом этапе вводилась ситуация, когда разные виды изображений не имели строгого согласования по смыслу. Далее, мы изменяли размер ключевых объектов, использовали различные ключевые размеры и изображения с меньшими размерами. Также мы проводили анализ уровня диапазона разнообразия видов и сравнивали разные метрики, такие как Earth Mover's Distance (EMD), для оценки взаимосвязи между видами. Для получения результатов мы использовали стандартные данные, такие как CIFAR-10 и ImageNet, а также проводили анализ по сетям, таким как MoCo и SimCLR.
## Результаты
Мы провели ряд экспериментов для оценки эффективности SSL без строгого согласования видов. Наши результаты показали, что SSL может продолжать работать даже при отсутствии согласования видов. Мы также обнаружили, что увеличение разнообразия видов может улучшить производительность SSL на задачах классификации и детектирования. Однако при слишком большом разнообразии видов также могут возникнуть проблемы, так как это может привести к некорректному семантическому представлению. Мы использовали метрику Earth Mover's Distance (EMD) для измерения взаимосвязи между видами и обнаружили, что оптимальный диапазон разнообразия может привести к лучшей производительности.
## Значимость
Наша работа имеет высокую значимость для развития SSL в ситуациях, когда строгого согласования видов недоступно. Мы продемонстрировали, что SSL может быть эффективен даже в сложных сценариях. Благодаря нашему подходу можно избежать ситуаций, когда разные виды изображений не имеют значимости. Это может быть полезно для разных применений, таких как здоровье, распознавание образов и обработка изображений. Наша работа также открывает новые возможности для разви
Abstract
Self-supervised learning (SSL) conventionally relies on the instance
consistency paradigm, assuming that different views of the same image can be
treated as positive pairs. However, this assumption breaks down for non-iconic
data, where different views may contain distinct objects or semantic
information. In this paper, we investigate the effectiveness of SSL when
instance consistency is not guaranteed. Through extensive ablation studies, we
demonstrate that SSL can still learn meaningful representations even when
positive pairs lack strict instance consistency. Furthermore, our analysis
further reveals that increasing view diversity, by enforcing zero overlapping
or using smaller crop scales, can enhance downstream performance on
classification and dense prediction tasks. However, excessive diversity is
found to reduce effectiveness, suggesting an optimal range for view diversity.
To quantify this, we adopt the Earth Mover's Distance (EMD) as an estimator to
measure mutual information between views, finding that moderate EMD values
correlate with improved SSL learning, providing insights for future SSL
framework design. We validate our findings across a range of settings,
highlighting their robustness and applicability on diverse data sources.
Ссылки и действия
Дополнительные ресурсы: