A Single Image Is All You Need: Zero-Shot Anomaly Localization Without Training Data

2509.18354v1 cs.CV, cs.AI, cs.LG, eess.IV, 62H35, 68T07, 62M40, 68T45, I.2.6; I.2.10; I.4.6; I.4.8; I.5.1; I.5.4 2025-09-25
Авторы:

Mehrdad Moradi, Shengzhe Chen, Hao Yan, Kamran Paynabar

Резюме на русском

#### Контекст Аномалий детектирование в изображениях широко используется в различных областях, включая производство, здравоохранение и безопасность. Обычно для этого требуется подготовленный набор тренировочных данных, на основе которого обучаются модели. Однако в реальной жизни часто возникают ситуации, когда исходных данных для обучения отсутствуют. Мы предлагаем метод, который способен детектировать аномалии в изображениях без предварительного обучения, используя только тестовое изображение. Наша модель, SSDnet, основывается на свойствах конvolutionных нейронных сетей и выступает в качестве уникального решения для такого "ноль-шота" сценария. #### Метод Мы предлагаем Single Shot Decomposition Network (SSDnet), который оперирует следующим принципом. Мы считаем, что в естественных изображениях присутствуют унифицированные текстуры и шаблоны, а аномалии выражаются как отклонения от этих шаблонов, например, в виде неестественных треков или пятен. SSDnet учитывает это, используя конvolutionные сети, чтобы восстановить исходное изображение только на основе своих внутренних свойств. Мы используем патч-базуую архитектуру, где изображение само представляется сети в качестве входа вместо шума, как в Deep Image Prior. Чтобы предотвратить простое обучение идентичности, мы применяем маскирование, смешивание патчей и небольшие добавления гауссовского шума. Также мы используем потерю внутреннего произведения для захвата структуры изображения за пределами верности пикселей. #### Результаты Мы провели эксперименты на двух высокочастотных датасетах: MVTec-AD и датасете тканей. SSDnet показал отличные результаты с AUROC 0.99 и AUPRC 0.60 на MVTec-AD и AUROC 0.98, AUPRC 0.67 на датасете тканей. Эти результаты значительно превосходят лучшие результаты других методов, особенно в условиях отсутствия тренировочных данных. Мы также проверили модель на изображениях с помехами и отсутствующими пикселями, подтвердив ее высокую устойчивость. #### Значимость Наш метод может применяться в областях, где данных для обучения отсутствуют, например, в ситуациях сбора данных после катастрофы или для детектирования аномалий в реальном времени. SSDnet обеспечивает высокую точность и гибкость без нужды в специальных тренировочных данных. Это делает его привлекательным для промышленных приложений, таких как оптическая инспекция, мониторинг производства и безопасность. #### Выводы Мы успешно продемонстрировали, что модель SSDnet может детектировать аномалии в изображениях без предварительного обучения. Наши выводы показывают, что модель достаточно мощная для применения в реальных сценариях. Мы планируем продолжать

Abstract

Anomaly detection in images is typically addressed by learning from collections of training data or relying on reference samples. In many real-world scenarios, however, such training data may be unavailable, and only the test image itself is provided. We address this zero-shot setting by proposing a single-image anomaly localization method that leverages the inductive bias of convolutional neural networks, inspired by Deep Image Prior (DIP). Our method is named Single Shot Decomposition Network (SSDnet). Our key assumption is that natural images often exhibit unified textures and patterns, and that anomalies manifest as localized deviations from these repetitive or stochastic patterns. To learn the deep image prior, we design a patch-based training framework where the input image is fed directly into the network for self-reconstruction, rather than mapping random noise to the image as done in DIP. To avoid the model simply learning an identity mapping, we apply masking, patch shuffling, and small Gaussian noise. In addition, we use a perceptual loss based on inner-product similarity to capture structure beyond pixel fidelity. Our approach needs no external training data, labels, or references, and remains robust in the presence of noise or missing pixels. SSDnet achieves 0.99 AUROC and 0.60 AUPRC on MVTec-AD and 0.98 AUROC and 0.67 AUPRC on the fabric dataset, outperforming state-of-the-art methods. The implementation code will be released at https://github.com/mehrdadmoradi124/SSDnet

Ссылки и действия