RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification
2508.03967v1
cs.CV, cs.CR, cs.IR
2025-08-09
Авторы:
Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdelmalik Taleb-Ahmed, Abdenour Hadid
Резюме на русском
Мы предлагаем RAVID, первый фреймворк для распознавания AI-генерированных изображений, основанный на визуальном генерировании с возможностью поиска (retrieval-augmented generation, RAG). Хотя RAG эффективно лечит неточности в текстовых данных, его применение в визуальной области остается недостаточно изученным. Существующие методы распознавания AI-генерированных изображений часто опираются на низкоуровневые артефакты и модель-специфичные признаки, что снижает их универсальность и устойчивость. RAVID улучшает обнаружение с помощью динамического восстановления информативных изображений. Мы используем оптимизированный изображения encoder CLIP (RAVID CLIP) с категориальными prompts для улучшения представления. Извлеченные изображения объединяются с запросом с помощью технологии vision-language (VLM), что позволяет улучшить точность. На бенчмарке UniversalFakeDetect, покрывающем 19 моделей генерации, RAVID достиг средней точности 93,85%. Он также превосходит традиционные методы в устойчивости, сохраняя высокоуровневую точность (80,27%) при искажениях изображения, таких как гауссовский размытие и JPEG-компрессия, что демонстрирует существенную улучшение по сравнению с соревнующими моделями.
Abstract
In this paper, we introduce RAVID, the first framework for AI-generated image
detection that leverages visual retrieval-augmented generation (RAG). While RAG
methods have shown promise in mitigating factual inaccuracies in foundation
models, they have primarily focused on text, leaving visual knowledge
underexplored. Meanwhile, existing detection methods, which struggle with
generalization and robustness, often rely on low-level artifacts and
model-specific features, limiting their adaptability. To address this, RAVID
dynamically retrieves relevant images to enhance detection. Our approach
utilizes a fine-tuned CLIP image encoder, RAVID CLIP, enhanced with
category-related prompts to improve representation learning. We further
integrate a vision-language model (VLM) to fuse retrieved images with the
query, enriching the input and improving accuracy. Given a query image, RAVID
generates an embedding using RAVID CLIP, retrieves the most relevant images
from a database, and combines these with the query image to form an enriched
input for a VLM (e.g., Qwen-VL or Openflamingo). Experiments on the
UniversalFakeDetect benchmark, which covers 19 generative models, show that
RAVID achieves state-of-the-art performance with an average accuracy of 93.85%.
RAVID also outperforms traditional methods in terms of robustness, maintaining
high accuracy even under image degradations such as Gaussian blur and JPEG
compression. Specifically, RAVID achieves an average accuracy of 80.27% under
degradation conditions, compared to 63.44% for the state-of-the-art model
C2P-CLIP, demonstrating consistent improvements in both Gaussian blur and JPEG
compression scenarios. The code will be publicly available upon acceptance.
Ссылки и действия
Дополнительные ресурсы: