OpenFake: An Open Dataset and Platform Toward Large-Scale Deepfake Detection

2509.09495v1 cs.CV, cs.AI, cs.LG, I.4.9; I.5.4; I.2.10 2025-09-13

Авторы:

Victor Livernoche, Akshatha Arodi, Andreea Musulan, Zachary Yang, Adam Salvail, Gaétan Marceau Caron, Jean-François Godbout, Reihaneh Rabbany

Резюме на русском

## Контекст Современная информационная среда стала центром распространения синтетических медиа, таких как deepfakes, которые используются для фальсификации информации. Эти синтетические медиа широко используются для распространения ложных сообщений, особенно в политически сентиментальных контекстах. Несмотря на развитие технологий, существующие датасеты для обучения моделей deepfake-детекторов часто ограничены устаревшими методами генерации, невысоким реалистичности изображений и ограниченным количеством типов лиц. Это ограничивает их эффективность в обнаружении синтетических изображений. Мы проанализировали социальные сети для понимания, как deepfakes распространяются и что мотивирует их создание. Также, наши исследования показали, что современные модели генерации изображений становятся все более реалистичными, что усложняет их отличие от реальных. Эти развития подчеркивают необходимость создания полностью открытого датасета, который бы отражал современные подходы к генерации deepfake. ## Метод Для создания датасета "OpenFake" мы разработали каркас поддерживающий извлечение и создание контекстных ссылок между текстовыми описаниями и синтетическими изображениями. Мы использовали три млн реальных изображений, каждое из которых было сопровождено подробным текстовым описанием. Эти описания были использованы для генерации 963 тысяч изображений с помощью различных генеративных моделей, включая как свободно распространяемые, так и закрытые модели. Мы также использовали усовершенствованные методы анализа изображений для обеспечения высокого качества и реалистичности генерируемых изображений. Для поддержания актуальности, мы представили инновационную платформу социальных технологий, на которой участники могут подготавливать и подавать в рамках конкурса свои собственные г DEEPFAKE-изображения, чтобы повысить трудность детектирования для детекторов. ## Результаты Мы провели ряд экспериментов для оценки качества генерируемых deepfakes, сравнивая их с реальными изображениями. Наши результаты показали, что генерируемые изображения имеют высокий уровень реалистичности, что создает серьезные проблемы для людей, пытающихся отличить их от реальных. Мы также провели широкомасштабное исследование, участники которого изучали ошибки в детектировании в Deepfake-изображениях. Эти исследования показали, что даже опытные пользователи часто ошибаются при различении глубоких фальшивых изображений от реальных. Наш датасет позволил показать, что современные модели deepfake-детекторов до сих пор имеют проблемы с обнаружением высококачественных deepfakes. ## Значимость Датасет OpenFake отк

Abstract

Deepfakes, synthetic media created using advanced AI techniques, have intensified the spread of misinformation, particularly in politically sensitive contexts. Existing deepfake detection datasets are often limited, relying on outdated generation methods, low realism, or single-face imagery, restricting the effectiveness for general synthetic image detection. By analyzing social media posts, we identify multiple modalities through which deepfakes propagate misinformation. Furthermore, our human perception study demonstrates that recently developed proprietary models produce synthetic images increasingly indistinguishable from real ones, complicating accurate identification by the general public. Consequently, we present a comprehensive, politically-focused dataset specifically crafted for benchmarking detection against modern generative models. This dataset contains three million real images paired with descriptive captions, which are used for generating 963k corresponding high-quality synthetic images from a mix of proprietary and open-source models. Recognizing the continual evolution of generative techniques, we introduce an innovative crowdsourced adversarial platform, where participants are incentivized to generate and submit challenging synthetic images. This ongoing community-driven initiative ensures that deepfake detection methods remain robust and adaptive, proactively safeguarding public discourse from sophisticated misinformation threats.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация