A Single Image Is All You Need: Zero-Shot Anomaly Localization Without Training Data
2509.18354v1
cs.CV, cs.AI, cs.LG, eess.IV, 62H35, 68T07, 62M40, 68T45, I.2.6; I.2.10; I.4.6; I.4.8; I.5.1; I.5.4
2025-09-25
Авторы:
Mehrdad Moradi, Shengzhe Chen, Hao Yan, Kamran Paynabar
Резюме на русском
#### Контекст
Аномалий детектирование в изображениях широко используется в различных областях, включая производство, здравоохранение и безопасность. Обычно для этого требуется подготовленный набор тренировочных данных, на основе которого обучаются модели. Однако в реальной жизни часто возникают ситуации, когда исходных данных для обучения отсутствуют. Мы предлагаем метод, который способен детектировать аномалии в изображениях без предварительного обучения, используя только тестовое изображение. Наша модель, SSDnet, основывается на свойствах конvolutionных нейронных сетей и выступает в качестве уникального решения для такого "ноль-шота" сценария.
#### Метод
Мы предлагаем Single Shot Decomposition Network (SSDnet), который оперирует следующим принципом. Мы считаем, что в естественных изображениях присутствуют унифицированные текстуры и шаблоны, а аномалии выражаются как отклонения от этих шаблонов, например, в виде неестественных треков или пятен. SSDnet учитывает это, используя конvolutionные сети, чтобы восстановить исходное изображение только на основе своих внутренних свойств. Мы используем патч-базуую архитектуру, где изображение само представляется сети в качестве входа вместо шума, как в Deep Image Prior. Чтобы предотвратить простое обучение идентичности, мы применяем маскирование, смешивание патчей и небольшие добавления гауссовского шума. Также мы используем потерю внутреннего произведения для захвата структуры изображения за пределами верности пикселей.
#### Результаты
Мы провели эксперименты на двух высокочастотных датасетах: MVTec-AD и датасете тканей. SSDnet показал отличные результаты с AUROC 0.99 и AUPRC 0.60 на MVTec-AD и AUROC 0.98, AUPRC 0.67 на датасете тканей. Эти результаты значительно превосходят лучшие результаты других методов, особенно в условиях отсутствия тренировочных данных. Мы также проверили модель на изображениях с помехами и отсутствующими пикселями, подтвердив ее высокую устойчивость.
#### Значимость
Наш метод может применяться в областях, где данных для обучения отсутствуют, например, в ситуациях сбора данных после катастрофы или для детектирования аномалий в реальном времени. SSDnet обеспечивает высокую точность и гибкость без нужды в специальных тренировочных данных. Это делает его привлекательным для промышленных приложений, таких как оптическая инспекция, мониторинг производства и безопасность.
#### Выводы
Мы успешно продемонстрировали, что модель SSDnet может детектировать аномалии в изображениях без предварительного обучения. Наши выводы показывают, что модель достаточно мощная для применения в реальных сценариях. Мы планируем продолжать
Abstract
Anomaly detection in images is typically addressed by learning from
collections of training data or relying on reference samples. In many
real-world scenarios, however, such training data may be unavailable, and only
the test image itself is provided. We address this zero-shot setting by
proposing a single-image anomaly localization method that leverages the
inductive bias of convolutional neural networks, inspired by Deep Image Prior
(DIP). Our method is named Single Shot Decomposition Network (SSDnet). Our key
assumption is that natural images often exhibit unified textures and patterns,
and that anomalies manifest as localized deviations from these repetitive or
stochastic patterns. To learn the deep image prior, we design a patch-based
training framework where the input image is fed directly into the network for
self-reconstruction, rather than mapping random noise to the image as done in
DIP. To avoid the model simply learning an identity mapping, we apply masking,
patch shuffling, and small Gaussian noise. In addition, we use a perceptual
loss based on inner-product similarity to capture structure beyond pixel
fidelity. Our approach needs no external training data, labels, or references,
and remains robust in the presence of noise or missing pixels. SSDnet achieves
0.99 AUROC and 0.60 AUPRC on MVTec-AD and 0.98 AUROC and 0.67 AUPRC on the
fabric dataset, outperforming state-of-the-art methods. The implementation code
will be released at https://github.com/mehrdadmoradi124/SSDnet