CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection
2508.03447v1
cs.CV
2025-08-09
Авторы:
Qiyu Chen, Zhen Qu, Wei Luo, Haiming Yao, Yunkang Cao, Yuxin Jiang, Yinan Duan, Huiyuan Luo, Chengkan Lv, Zhengtao Zhang
Резюме на русском
В статье CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection рассматривается проблема zero-shot anomaly detection (ZSAD), где недостаточностью является способность статических токенов адаптироваться к разнообразным нормальным и аномальным состояниям. Для решения этой проблемы предлагается фреймворк Conditional Prompt Synthesis (CoPS), который синтезирует динамические токены на основе визуальных признаков. Эти токены включают прототипы нормальных и аномальных состояний, извлеченные из характеристик патчей. Также включена модель вариационной автоэнкодерной семантики для обработки разреженных меток классов. Интегрированная способность специального механизма специального взаимодействия с объектом демонстрирует выигрыш в 2.5% AUROC во всех тестовых наборах данных, отражая его универсальность в целях инженерных и медицинских приложений. Этот подход превзошел текущие методы и подкрепил теорию состояний высокопроизводительным инструментом для ZSAD.
Abstract
Recently, large pre-trained vision-language models have shown remarkable
performance in zero-shot anomaly detection (ZSAD). With fine-tuning on a single
auxiliary dataset, the model enables cross-category anomaly detection on
diverse datasets covering industrial defects and medical lesions. Compared to
manually designed prompts, prompt learning eliminates the need for expert
knowledge and trial-and-error. However, it still faces the following
challenges: (i) static learnable tokens struggle to capture the continuous and
diverse patterns of normal and anomalous states, limiting generalization to
unseen categories; (ii) fixed textual labels provide overly sparse category
information, making the model prone to overfitting to a specific semantic
subspace. To address these issues, we propose Conditional Prompt Synthesis
(CoPS), a novel framework that synthesizes dynamic prompts conditioned on
visual features to enhance ZSAD performance. Specifically, we extract
representative normal and anomaly prototypes from fine-grained patch features
and explicitly inject them into prompts, enabling adaptive state modeling.
Given the sparsity of class labels, we leverage a variational autoencoder to
model semantic image features and implicitly fuse varied class tokens into
prompts. Additionally, integrated with our spatially-aware alignment mechanism,
extensive experiments demonstrate that CoPS surpasses state-of-the-art methods
by 2.5% AUROC in both classification and segmentation across 13 industrial and
medical datasets. Code will be available at https://github.com/cqylunlun/CoPS.
Ссылки и действия
Дополнительные ресурсы: