When Deepfakes Look Real: Detecting AI-Generated Faces with Unlabeled Data due to Annotation Challenges
2508.09022v2
cs.CV, cs.AI
2025-08-14
Авторы:
Zhiqiang Yang, Renshuai Tao, Xiaolong Zheng, Guodong Yang, Chunjie Zhang
Резюме на русском
#### Контекст
Область исследования связана с распознаванием г DEEPFAKES, технологий, которые автоматически генерируют лица, выглядящие как настоящие. Эти технологии имеют широкое применение в разных сферах, но также представляют угрозу для безопасности информации и честности коммуникации. Известно, что существующие методы распознавания DEEPFAKES требуют большого количества точечного меток (labeled), для обучения моделей. Однако, на сегодняшний день, генерируемые с помощью ИИ лица становятся все более реалистичными, и даже человеком процесс различения между генерируемыми и настоящими лицами становится сложнее. Это приводит к увеличению времени и сложности процесса меток, а также к ухудшению точности распознавания. Кроме того, требуется развитие подходов, которые могут эффективно использовать большие массивы непомеченных данных, таких как лица, полученные из социальных сетей. Эти данные обычно имеют динамические качества и трудно классифицировать стандартными методами, обученными на меточных данных. В данном исследовании рассматривается задача распознавания главных особенностей г DEEPFAKES, применяя алгоритмы, которые могут эффективно работать с непомеченными данными.
#### Метод
Основной метод, предлагаемый в работе, называется Dual-Path Guidance Network (DPGNet). Он представляет собой совместное использование двух путей информации: текстового и визуального. Данный подход оптимизируется для решения двух ключевых проблем: (1) уменьшения различий между генерируемыми лицами различных моделей, и (2) использования непомеченных данных для обучения.
- **Text-guided Cross-domain Alignment**: Этот модуль позволяет связать визуальные и текстовые признаки, используя универсальность текста для объединения разных доменов (генерируемые и настоящие лица). Используя "learnable prompts" (обучаемые подсказки), DPGNet способен привести визуальные и текстовые данные к общему, независимому от домена, функциональному пространству.
- **Curriculum-driven Pseudo Label Generation**: Данный модуль раскрывает потенциал непомеченных данных, постепенно расширяя обучающую выборку с помощью динамической генерации псевдо-меток. Это позволяет модели учитывать более качественные семплы из непомеченных данных.
- **Cross-domain Knowledge Distillation**: Чтобы обойти проблему "catastrophic forgetting" (забывание достигнутых навыков при изменении обучающих наборов), DPGNet использует методы кросс-доменного знания, чтобы лучше связать взаимосвязанные компоненты из разных доменов.
#### Результаты
В ходе экспериментов DPGNet был проверен на 11 популярных датасетах, где показал высокую точность в распознавании г DEEPFAKES. Метод демонстрирует зна
Abstract
Existing deepfake detection methods heavily depend on labeled training data.
However, as AI-generated content becomes increasingly realistic, even
\textbf{human annotators struggle to distinguish} between deepfakes and
authentic images. This makes the labeling process both time-consuming and less
reliable. Specifically, there is a growing demand for approaches that can
effectively utilize large-scale unlabeled data from online social networks.
Unlike typical unsupervised learning tasks, where categories are distinct,
AI-generated faces closely mimic real image distributions and share strong
similarities, causing performance drop in conventional strategies. In this
paper, we introduce the Dual-Path Guidance Network (DPGNet), to tackle two key
challenges: (1) bridging the domain gap between faces from different generation
models, and (2) utilizing unlabeled image samples. The method features two core
modules: text-guided cross-domain alignment, which uses learnable prompts to
unify visual and textual embeddings into a domain-invariant feature space, and
curriculum-driven pseudo label generation, which dynamically exploit more
informative unlabeled samples. To prevent catastrophic forgetting, we also
facilitate bridging between domains via cross-domain knowledge distillation.
Extensive experiments on \textbf{11 popular datasets}, show that DPGNet
outperforms SoTA approaches by \textbf{6.3\%}, highlighting its effectiveness
in leveraging unlabeled data to address the annotation challenges posed by the
increasing realism of deepfakes.
Ссылки и действия
Дополнительные ресурсы: