OpenFake: An Open Dataset and Platform Toward Large-Scale Deepfake Detection
2509.09495v1
cs.CV, cs.AI, cs.LG, I.4.9; I.5.4; I.2.10
2025-09-13
Авторы:
Victor Livernoche, Akshatha Arodi, Andreea Musulan, Zachary Yang, Adam Salvail, Gaétan Marceau Caron, Jean-François Godbout, Reihaneh Rabbany
Резюме на русском
## Контекст
Современная информационная среда стала центром распространения синтетических медиа, таких как deepfakes, которые используются для фальсификации информации. Эти синтетические медиа широко используются для распространения ложных сообщений, особенно в политически сентиментальных контекстах. Несмотря на развитие технологий, существующие датасеты для обучения моделей deepfake-детекторов часто ограничены устаревшими методами генерации, невысоким реалистичности изображений и ограниченным количеством типов лиц. Это ограничивает их эффективность в обнаружении синтетических изображений. Мы проанализировали социальные сети для понимания, как deepfakes распространяются и что мотивирует их создание. Также, наши исследования показали, что современные модели генерации изображений становятся все более реалистичными, что усложняет их отличие от реальных. Эти развития подчеркивают необходимость создания полностью открытого датасета, который бы отражал современные подходы к генерации deepfake.
## Метод
Для создания датасета "OpenFake" мы разработали каркас поддерживающий извлечение и создание контекстных ссылок между текстовыми описаниями и синтетическими изображениями. Мы использовали три млн реальных изображений, каждое из которых было сопровождено подробным текстовым описанием. Эти описания были использованы для генерации 963 тысяч изображений с помощью различных генеративных моделей, включая как свободно распространяемые, так и закрытые модели. Мы также использовали усовершенствованные методы анализа изображений для обеспечения высокого качества и реалистичности генерируемых изображений. Для поддержания актуальности, мы представили инновационную платформу социальных технологий, на которой участники могут подготавливать и подавать в рамках конкурса свои собственные г DEEPFAKE-изображения, чтобы повысить трудность детектирования для детекторов.
## Результаты
Мы провели ряд экспериментов для оценки качества генерируемых deepfakes, сравнивая их с реальными изображениями. Наши результаты показали, что генерируемые изображения имеют высокий уровень реалистичности, что создает серьезные проблемы для людей, пытающихся отличить их от реальных. Мы также провели широкомасштабное исследование, участники которого изучали ошибки в детектировании в Deepfake-изображениях. Эти исследования показали, что даже опытные пользователи часто ошибаются при различении глубоких фальшивых изображений от реальных. Наш датасет позволил показать, что современные модели deepfake-детекторов до сих пор имеют проблемы с обнаружением высококачественных deepfakes.
## Значимость
Датасет OpenFake отк
Abstract
Deepfakes, synthetic media created using advanced AI techniques, have
intensified the spread of misinformation, particularly in politically sensitive
contexts. Existing deepfake detection datasets are often limited, relying on
outdated generation methods, low realism, or single-face imagery, restricting
the effectiveness for general synthetic image detection. By analyzing social
media posts, we identify multiple modalities through which deepfakes propagate
misinformation. Furthermore, our human perception study demonstrates that
recently developed proprietary models produce synthetic images increasingly
indistinguishable from real ones, complicating accurate identification by the
general public. Consequently, we present a comprehensive, politically-focused
dataset specifically crafted for benchmarking detection against modern
generative models. This dataset contains three million real images paired with
descriptive captions, which are used for generating 963k corresponding
high-quality synthetic images from a mix of proprietary and open-source models.
Recognizing the continual evolution of generative techniques, we introduce an
innovative crowdsourced adversarial platform, where participants are
incentivized to generate and submit challenging synthetic images. This ongoing
community-driven initiative ensures that deepfake detection methods remain
robust and adaptive, proactively safeguarding public discourse from
sophisticated misinformation threats.