📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня
Авторы:

Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdelmalik Taleb-Ahmed, Abdenour Hadid

Мы предлагаем RAVID, первый фреймворк для распознавания AI-генерированных изображений, основанный на визуальном генерировании с возможностью поиска (retrieval-augmented generation, RAG). Хотя RAG эффективно лечит неточности в текстовых данных, его применение в визуальной области остается недостаточно изученным. Существующие методы распознавания AI-генерированных изображений часто опираются на низкоуровневые артефакты и модель-специфичные признаки, что снижает их универсальность и устойчивость. RAVID улучшает обнаружение с помощью динамического восстановления информативных изображений. Мы используем оптимизированный изображения encoder CLIP (RAVID CLIP) с категориальными prompts для улучшения представления. Извлеченные изображения объединяются с запросом с помощью технологии vision-language (VLM), что позволяет улучшить точность. На бенчмарке UniversalFakeDetect, покрывающем 19 моделей генерации, RAVID достиг средней точности 93,85%. Он также превосходит традиционные методы в устойчивости, сохраняя высокоуровневую точность (80,27%) при искажениях изображения, таких как гауссовский размытие и JPEG-компрессия, что демонстрирует существенную улучшение по сравнению с соревнующими моделями.
Annotation:
In this paper, we introduce RAVID, the first framework for AI-generated image detection that leverages visual retrieval-augmented generation (RAG). While RAG methods have shown promise in mitigating factual inaccuracies in foundation models, they have primarily focused on text, leaving visual knowledge underexplored. Meanwhile, existing detection methods, which struggle with generalization and robustness, often rely on low-level artifacts and model-specific features, limiting their adaptability....
ID: 2508.03967v1 cs.CV, cs.CR, cs.IR