Semantic Concentration for Self-Supervised Dense Representations Learning

2509.09429v1 cs.CV, cs.LG 2025-09-13
Авторы:

Peisong Wen, Qianqian Xu, Siran Dai, Runmin Cong, Qingming Huang

Резюме на русском

#### Контекст Органиченные изображения часто содержат многочисленные объекты различных классов, образуя сложные сцены. Для самостоятельно полученных (self-supervised) методов обучения детальных представлений (dense representations) это представляет вызов, так как методы, ориентированные на изображение целиком, часто страдают от разброса представлений патчей (over-dispersion), что сказывается на качестве решения задач связанных с патчами. Недостаток в текущих подходах в том, что они недостаточно учитывают семантические связи между патчами в пределах одного изображения. Мы предлагаем новый подход, основанный на семантической концентрации, чтобы улучшить методы обучения представлений для патчей. #### Метод Мы предложили два основных вклада для улучшения семантической концентрации в dense self-supervised learning. Во-первых, мы предложили метод, основанный на знании патчей (knowledge distillation), чтобы извлечь соответствия между патчами в условиях шума и несбалансированных псевдометок. Для этого мы расширили определение Average Precision Loss, чтобы он мог работать с непрерывными целями, и добавили адаптивный фокус, чтобы избежать преувеличения влияния шума. Во-вторых, мы предложили объектно-ориентированный фильтр, который преобразует пространство представлений в пространство, ориентированное на объекты. Это достигается с помощью кросс-аттенции, которое позволяет патчам быть представленными как прототипы объектов. #### Результаты Мы провели эксперименты на нескольких задачах связанных с патчами, включая финальную сегментацию и классификацию. Наши результаты показали, что наш подход не только устраняет проблему over-dispersion, но и повышает качество представлений. Мы сравнили нашу работу с несколькими современными методами и показали, что наши результаты значительно лучше, особенно в сложных сценах. Наши подходы демонстрируют высокую точность и устойчивость при работе с шумом и несбалансированными метками. #### Значимость Метод, основанный на семантической концентрации, имеет широкие применения в области обучения представлений для патчей в сложных изображениях. Он может быть применен в задачах, таких как сегментация, классификация и обнаружение объектов. Наши решения улучшают качество представлений, уменьшают разброс патчей и повышают устойчивость к шуму. Это может привести к значительным улучшениям в различных областях, таких как автоматическое вождение, оптическое распознавание символов и анализ изображений в медицине. #### Выводы Мы продемонстрировали, что семантическая концентрация является ключевым фактором для повышения качества представлений патчей в самостоятельном обучении. Наши подходы, включая знание п

Abstract

Recent advances in image-level self-supervised learning (SSL) have made significant progress, yet learning dense representations for patches remains challenging. Mainstream methods encounter an over-dispersion phenomenon that patches from the same instance/category scatter, harming downstream performance on dense tasks. This work reveals that image-level SSL avoids over-dispersion by involving implicit semantic concentration. Specifically, the non-strict spatial alignment ensures intra-instance consistency, while shared patterns, i.e., similar parts of within-class instances in the input space, ensure inter-image consistency. Unfortunately, these approaches are infeasible for dense SSL due to their spatial sensitivity and complicated scene-centric data. These observations motivate us to explore explicit semantic concentration for dense SSL. First, to break the strict spatial alignment, we propose to distill the patch correspondences. Facing noisy and imbalanced pseudo labels, we propose a noise-tolerant ranking loss. The core idea is extending the Average Precision (AP) loss to continuous targets, such that its decision-agnostic and adaptive focusing properties prevent the student model from being misled. Second, to discriminate the shared patterns from complicated scenes, we propose the object-aware filter to map the output space to an object-based space. Specifically, patches are represented by learnable prototypes of objects via cross-attention. Last but not least, empirical studies across various tasks soundly support the effectiveness of our method. Code is available in https://github.com/KID-7391/CoTAP.

Ссылки и действия