CLASP: Adaptive Spectral Clustering for Unsupervised Per-Image Segmentation

2509.25016v1 cs.CV, cs.AI, cs.LG 2025-10-01

Авторы:

Max Curie, Paulo da Costa

Резюме на русском

## Контекст Объект исследования — развитие адаптивной спектральной кластеризации для неразмеченной сегментации изображений. Существующие проблемы включают необходимость ручного выбора параметров кластеризации, высокую сложность обучения с учителем для работы с большими неразмеченными корпусами данных, а также трудности в поддержании высокой точности сегментации. Мотивация заключается в создании простой, легко реплицируемой и эффективной модели, которая могла бы использоваться в приложениях, таких как оценка бренд-безопасности, креативная ассет-курация и модерация содержимого в социальных сетях. ## Метод CLASP (Clustering via Adaptive Spectral Processing) — это легковесная архитектура, которая не требует меток данных. Она начинает с извлечения функций первого порядка для каждого патча изображения с помощью самосупервизированного ViT-энкодера DINO. Затем строится аффинти-матрица, исходя из этих функций, с последующим применением спектральной кластеризации. Чтобы избежать ручной настройки, CLASP автоматически определяет число кластеров с помощью метода eigengap silhouette search. Чтобы улучшить точность, CLASP применяет DenseCRF для закругления границ сегментов. Модель требует минимального вычислительного ввоза и не требует предварительного обучения. ## Результаты На бенчмарках COCO Stuff и ADE20K, CLASP достигает соревновательных показателей mIoU и пиксельной точности по сравнению с другими неразмеченными базовыми моделями. Эксперименты показывают, что CLASP превосходит многие современные подходы в сценариях, где данных для обучения отсутствуют. Данные эксперименты подтверждают сильную репликабельность модели и ее применимость в рабочих процессах, таких как модерация содержимого и креативная ассет-курация. ## Значимость CLASP имеет широкие области применения, включая цифровое рекламное пространство, креативное управление, и модерацию контента. Развитие модели в рамках этого исследования демонстрирует потенциал самосупервизионных подходов в больших неразмеченных корпусах данных. Своей простотой и эффективностью CLASP открывает возможности для улучшения производительности таких рабочих процессов, как бренд-безопасность и социальная модерация. ## Выводы CLASP представляет собой прорыв в области неразмеченной сегментации изображений, обеспечивая высокую точность и простоту в реализации. Будущие работы будут сфокусированы на расширении модели для более сложных сценариев и интеграции в различные приложения, такие как анализ содержимого и автоматизация рабочих процессов.

Abstract

We introduce CLASP (Clustering via Adaptive Spectral Processing), a lightweight framework for unsupervised image segmentation that operates without any labeled data or finetuning. CLASP first extracts per patch features using a self supervised ViT encoder (DINO); then, it builds an affinity matrix and applies spectral clustering. To avoid manual tuning, we select the segment count automatically with a eigengap silhouette search, and we sharpen the boundaries with a fully connected DenseCRF. Despite its simplicity and training free nature, CLASP attains competitive mIoU and pixel accuracy on COCO Stuff and ADE20K, matching recent unsupervised baselines. The zero training design makes CLASP a strong, easily reproducible baseline for large unannotated corpora especially common in digital advertising and marketing workflows such as brand safety screening, creative asset curation, and social media content moderation

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CLASP: Adaptive Spectral Clustering for Unsupervised Per-Image Segmentation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация