Synthetic Image Detection via Spectral Gaps of QC-RBIM Nishimori Bethe-Hessian Operators

2508.19698v1 cs.CV, cs.IT, math.IT, math.SP 2025-08-29
Авторы:

V. S. Usatyuk, D. A. Sapozhnikov, S. I. Egorov

Резюме на русском

## Контекст Современные глубокие генерирующие модели, такие как GANs и диффузионные сети, способны создавать изображения, которые практически не различимы от реальных фотографий. Это создает серьезные проблемы для медиа-фореnsic и биометрической безопасности. Настоящие изображения могут быть трудно распознаны супервизированными детекторами, в связи с узким кругом тренировочных данных и потерей эффективности вне тренировочного диапазона. Другие методики, основанные на низкоуровневых статистических признаках, оказываются чрезвычайно уязвимыми к атакам. Однако новый подход, основывающийся на физических принципах, предлагает новые возможности для решения этой задачи. ## Метод Методика основывается на статистических графовых моделях, где изображения представляются в виде спектральных характеристик графов. Используется технология QC-LDPC (Quasi-Cyclic Low-Density Parity-Check) для строительства графа, в котором вершины представляют собой вектора признаков изображений, извлеченные с помощью предобученных сверточных нейронных сетей (CNN). Эти вершины соединяются специальными графовыми ребрами, которые добавляются с учетом Nishimori-температуры, чтобы получить Random Bond Ising Model (RBIM). Спектр Bethe-Hessian оператора для RBIM имеет особую топологию в зависимости от того, является ли изображение реальным или синтетическим. Реальные изображения создают спектр с видимыми спектральными пробелами, в то время как синтетические изображения — нет. ## Результаты Эксперименты проводились на датасетах Flickr-Faces-HQ (FFHQ) и CelebA. Использованы GANs и diffusion models для создания синтетических изображений. Детектор работал в условиях нейтрального окружения, не имея доступа к синтетическим данным, и достиг точности около 94%. Анализ спектра показал, что для реальных изображений спектр является структурированным, в то время как для синтетических — полностью разрушен. Детектор был показан как сильно устойчивый к новым моделям генерации изображений. ## Значимость Подход имеет широкие потенциальные применения в медиа-анализе, биометрии, безопасности информации и противодействии ложной информации. Он не требует лейблирования или дополнительной обученности модели, поэтому является гибким и эффективным. Обнаружение синтетических изображений становится более доступным и надёжным, что может иметь значительное влияние на развитие технологий в области медиа-анализа. ## Выводы На основе физических принципов была предложена новая методика для автоматического распознавания синтетических изображений. Мето

Abstract

The rapid advance of deep generative models such as GANs and diffusion networks now produces images that are virtually indistinguishable from genuine photographs, undermining media forensics and biometric security. Supervised detectors quickly lose effectiveness on unseen generators or after adversarial post-processing, while existing unsupervised methods that rely on low-level statistical cues remain fragile. We introduce a physics-inspired, model-agnostic detector that treats synthetic-image identification as a community-detection problem on a sparse weighted graph. Image features are first extracted with pretrained CNNs and reduced to 32 dimensions, each feature vector becomes a node of a Multi-Edge Type QC-LDPC graph. Pairwise similarities are transformed into edge couplings calibrated at the Nishimori temperature, producing a Random Bond Ising Model (RBIM) whose Bethe-Hessian spectrum exhibits a characteristic gap when genuine community structure (real images) is present. Synthetic images violate the Nishimori symmetry and therefore lack such gaps. We validate the approach on binary tasks cat versus dog and male versus female using real photos from Flickr-Faces-HQ and CelebA and synthetic counterparts generated by GANs and diffusion models. Without any labeled synthetic data or retraining of the feature extractor, the detector achieves over 94% accuracy. Spectral analysis shows multiple well separated gaps for real image sets and a collapsed spectrum for generated ones. Our contributions are threefold: a novel LDPC graph construction that embeds deep image features, an analytical link between Nishimori temperature RBIM and the Bethe-Hessian spectrum providing a Bayes optimal detection criterion; and a practical, unsupervised synthetic image detector robust to new generative architectures. Future work will extend the framework to video streams and multi-class anomaly detection.

Ссылки и действия