CLASP: Adaptive Spectral Clustering for Unsupervised Per-Image Segmentation
2509.25016v1
cs.CV, cs.AI, cs.LG
2025-10-01
Авторы:
Max Curie, Paulo da Costa
Резюме на русском
## Контекст
Объект исследования — развитие адаптивной спектральной кластеризации для неразмеченной сегментации изображений. Существующие проблемы включают необходимость ручного выбора параметров кластеризации, высокую сложность обучения с учителем для работы с большими неразмеченными корпусами данных, а также трудности в поддержании высокой точности сегментации. Мотивация заключается в создании простой, легко реплицируемой и эффективной модели, которая могла бы использоваться в приложениях, таких как оценка бренд-безопасности, креативная ассет-курация и модерация содержимого в социальных сетях.
## Метод
CLASP (Clustering via Adaptive Spectral Processing) — это легковесная архитектура, которая не требует меток данных. Она начинает с извлечения функций первого порядка для каждого патча изображения с помощью самосупервизированного ViT-энкодера DINO. Затем строится аффинти-матрица, исходя из этих функций, с последующим применением спектральной кластеризации. Чтобы избежать ручной настройки, CLASP автоматически определяет число кластеров с помощью метода eigengap silhouette search. Чтобы улучшить точность, CLASP применяет DenseCRF для закругления границ сегментов. Модель требует минимального вычислительного ввоза и не требует предварительного обучения.
## Результаты
На бенчмарках COCO Stuff и ADE20K, CLASP достигает соревновательных показателей mIoU и пиксельной точности по сравнению с другими неразмеченными базовыми моделями. Эксперименты показывают, что CLASP превосходит многие современные подходы в сценариях, где данных для обучения отсутствуют. Данные эксперименты подтверждают сильную репликабельность модели и ее применимость в рабочих процессах, таких как модерация содержимого и креативная ассет-курация.
## Значимость
CLASP имеет широкие области применения, включая цифровое рекламное пространство, креативное управление, и модерацию контента. Развитие модели в рамках этого исследования демонстрирует потенциал самосупервизионных подходов в больших неразмеченных корпусах данных. Своей простотой и эффективностью CLASP открывает возможности для улучшения производительности таких рабочих процессов, как бренд-безопасность и социальная модерация.
## Выводы
CLASP представляет собой прорыв в области неразмеченной сегментации изображений, обеспечивая высокую точность и простоту в реализации. Будущие работы будут сфокусированы на расширении модели для более сложных сценариев и интеграции в различные приложения, такие как анализ содержимого и автоматизация рабочих процессов.
Abstract
We introduce CLASP (Clustering via Adaptive Spectral Processing), a
lightweight framework for unsupervised image segmentation that operates without
any labeled data or finetuning. CLASP first extracts per patch features using a
self supervised ViT encoder (DINO); then, it builds an affinity matrix and
applies spectral clustering. To avoid manual tuning, we select the segment
count automatically with a eigengap silhouette search, and we sharpen the
boundaries with a fully connected DenseCRF. Despite its simplicity and training
free nature, CLASP attains competitive mIoU and pixel accuracy on COCO Stuff
and ADE20K, matching recent unsupervised baselines. The zero training design
makes CLASP a strong, easily reproducible baseline for large unannotated
corpora especially common in digital advertising and marketing workflows such
as brand safety screening, creative asset curation, and social media content
moderation
Ссылки и действия
Дополнительные ресурсы: