A Contrastive Learning-Guided Confident Meta-learning for Zero Shot Anomaly Detection

2508.17827v1 cs.CV, cs.LG 2025-08-27
Авторы:

Muhammad Aqeel, Danijel Skocaj, Marco Cristani, Francesco Setti

Резюме на русском

## Контекст Индустриальная и медицинская детекция аномалий сталкивается с критическими вызовами, включая нехватку данных и высокую стоимость аннотаций. Эти проблемы особенно актуальны в условиях быстрого развития производственных и медицинских систем. Отсутствие доступных масштабных данных, а также трудности в получении аннотаций, снижают эффективность существующих методов. Многие работы предлагают решения, ориентированные на конкретные сценарии, но не рассматривают широкий спектр приложений. Мы предлагаем CoZAD — расширенную мета-learning-ориентированную модель для нулевого-снарядного (zero-shot) обнаружения аномалий. Она комбинирует методы софт-конфиденсного обучения, мета-обучения и контрастного отображения признаков, чтобы обеспечить эффективность в различных сценариях. ## Метод CoZAD основывается на нескольких ключевых компонентах. Вначале, метод **Soft Confident Learning (SCL)** присваивает всем обучающим данным веса, основанные на их уверенности. Это позволяет сохранить информацию о границах классов и сохранить важность прототипных нормальных паттернов. **Model-Agnostic Meta-Learning (MAML)** используется для адаптации модели к различным задачам с небольшим количеством примеров. **Contrastive Learning** позволяет формировать дискретные признаковые пространства, в которых нормальные паттерны образуют спаи, упрощая распознавание аномалий. **Thresholding** на основе IQR (Interquartile Range) используется для оценки данных с высокой неопределенностью, тогда как **Covariance-Based Regularization** внутри MAML позволяет модели учитывать ковариацию признаков. ## Результаты Мы провели эксперименты на десяти различных датасетах, как в индустрии, так и в медицине. CoZAD показала значительные улучшения по сравнению с текущими лучшими решениями на 6 из 7 индустриальных задач, особенно на датасетах, содержащих богатые текстурные данные. На DTD-Synthetic CoZAD достигла I-AUROC 99.2%, а на BTAD — 97.2%. Кроме того, на MVTec-AD модель показала величину P-AUROC 96.3% при pixellevel-локализации аномалий. Эти результаты демонистрируют высокую точность и гибкость модели в различных условиях. ## Значимость CoZAD может быть применена в различных областях, включая производственную автоматизацию, выявление неисправностей в системах, анализ медицинских изображений и другие сценарии с недостатком данных. Основное преимущество — полное отсутствие зависимости от моделей визуального понимания языка или композиционных моделей. Это делает CoZAD привлекательной для систем, требующих быстрой развертываемости и экономии ресурсов. Будущие исследования будут ориентированы на расширение модели для многомодальных задач и улучшение ее точности в ситуациях с высоко

Abstract

Industrial and medical anomaly detection faces critical challenges from data scarcity and prohibitive annotation costs, particularly in evolving manufacturing and healthcare settings. To address this, we propose CoZAD, a novel zero-shot anomaly detection framework that integrates soft confident learning with meta-learning and contrastive feature representation. Unlike traditional confident learning that discards uncertain samples, our method assigns confidence-based weights to all training data, preserving boundary information while emphasizing prototypical normal patterns. The framework quantifies data uncertainty through IQR-based thresholding and model uncertainty via covariance based regularization within a Model-Agnostic Meta-Learning. Contrastive learning creates discriminative feature spaces where normal patterns form compact clusters, enabling rapid domain adaptation. Comprehensive evaluation across 10 datasets spanning industrial and medical domains demonstrates state-of-the-art performance, outperforming existing methods on 6 out of 7 industrial benchmarks with notable improvements on texture-rich datasets (99.2% I-AUROC on DTD-Synthetic, 97.2% on BTAD) and pixellevel localization (96.3% P-AUROC on MVTec-AD). The framework eliminates dependence on vision-language alignments or model ensembles, making it valuable for resourceconstrained environments requiring rapid deployment.

Ссылки и действия