A Contrastive Learning-Guided Confident Meta-learning for Zero Shot Anomaly Detection
2508.17827v1
cs.CV, cs.LG
2025-08-27
Авторы:
Muhammad Aqeel, Danijel Skocaj, Marco Cristani, Francesco Setti
Резюме на русском
## Контекст
Индустриальная и медицинская детекция аномалий сталкивается с критическими вызовами, включая нехватку данных и высокую стоимость аннотаций. Эти проблемы особенно актуальны в условиях быстрого развития производственных и медицинских систем. Отсутствие доступных масштабных данных, а также трудности в получении аннотаций, снижают эффективность существующих методов. Многие работы предлагают решения, ориентированные на конкретные сценарии, но не рассматривают широкий спектр приложений. Мы предлагаем CoZAD — расширенную мета-learning-ориентированную модель для нулевого-снарядного (zero-shot) обнаружения аномалий. Она комбинирует методы софт-конфиденсного обучения, мета-обучения и контрастного отображения признаков, чтобы обеспечить эффективность в различных сценариях.
## Метод
CoZAD основывается на нескольких ключевых компонентах. Вначале, метод **Soft Confident Learning (SCL)** присваивает всем обучающим данным веса, основанные на их уверенности. Это позволяет сохранить информацию о границах классов и сохранить важность прототипных нормальных паттернов. **Model-Agnostic Meta-Learning (MAML)** используется для адаптации модели к различным задачам с небольшим количеством примеров. **Contrastive Learning** позволяет формировать дискретные признаковые пространства, в которых нормальные паттерны образуют спаи, упрощая распознавание аномалий. **Thresholding** на основе IQR (Interquartile Range) используется для оценки данных с высокой неопределенностью, тогда как **Covariance-Based Regularization** внутри MAML позволяет модели учитывать ковариацию признаков.
## Результаты
Мы провели эксперименты на десяти различных датасетах, как в индустрии, так и в медицине. CoZAD показала значительные улучшения по сравнению с текущими лучшими решениями на 6 из 7 индустриальных задач, особенно на датасетах, содержащих богатые текстурные данные. На DTD-Synthetic CoZAD достигла I-AUROC 99.2%, а на BTAD — 97.2%. Кроме того, на MVTec-AD модель показала величину P-AUROC 96.3% при pixellevel-локализации аномалий. Эти результаты демонистрируют высокую точность и гибкость модели в различных условиях.
## Значимость
CoZAD может быть применена в различных областях, включая производственную автоматизацию, выявление неисправностей в системах, анализ медицинских изображений и другие сценарии с недостатком данных. Основное преимущество — полное отсутствие зависимости от моделей визуального понимания языка или композиционных моделей. Это делает CoZAD привлекательной для систем, требующих быстрой развертываемости и экономии ресурсов. Будущие исследования будут ориентированы на расширение модели для многомодальных задач и улучшение ее точности в ситуациях с высоко
Abstract
Industrial and medical anomaly detection faces critical challenges from data
scarcity and prohibitive annotation costs, particularly in evolving
manufacturing and healthcare settings. To address this, we propose CoZAD, a
novel zero-shot anomaly detection framework that integrates soft confident
learning with meta-learning and contrastive feature representation. Unlike
traditional confident learning that discards uncertain samples, our method
assigns confidence-based weights to all training data, preserving boundary
information while emphasizing prototypical normal patterns. The framework
quantifies data uncertainty through IQR-based thresholding and model
uncertainty via covariance based regularization within a Model-Agnostic
Meta-Learning. Contrastive learning creates discriminative feature spaces where
normal patterns form compact clusters, enabling rapid domain adaptation.
Comprehensive evaluation across 10 datasets spanning industrial and medical
domains demonstrates state-of-the-art performance, outperforming existing
methods on 6 out of 7 industrial benchmarks with notable improvements on
texture-rich datasets (99.2% I-AUROC on DTD-Synthetic, 97.2% on BTAD) and
pixellevel localization (96.3% P-AUROC on MVTec-AD). The framework eliminates
dependence on vision-language alignments or model ensembles, making it valuable
for resourceconstrained environments requiring rapid deployment.
Ссылки и действия
Дополнительные ресурсы: