When Deepfakes Look Real: Detecting AI-Generated Faces with Unlabeled Data due to Annotation Challenges

2508.09022v2 cs.CV, cs.AI 2025-08-14
Авторы:

Zhiqiang Yang, Renshuai Tao, Xiaolong Zheng, Guodong Yang, Chunjie Zhang

Резюме на русском

#### Контекст Область исследования связана с распознаванием г DEEPFAKES, технологий, которые автоматически генерируют лица, выглядящие как настоящие. Эти технологии имеют широкое применение в разных сферах, но также представляют угрозу для безопасности информации и честности коммуникации. Известно, что существующие методы распознавания DEEPFAKES требуют большого количества точечного меток (labeled), для обучения моделей. Однако, на сегодняшний день, генерируемые с помощью ИИ лица становятся все более реалистичными, и даже человеком процесс различения между генерируемыми и настоящими лицами становится сложнее. Это приводит к увеличению времени и сложности процесса меток, а также к ухудшению точности распознавания. Кроме того, требуется развитие подходов, которые могут эффективно использовать большие массивы непомеченных данных, таких как лица, полученные из социальных сетей. Эти данные обычно имеют динамические качества и трудно классифицировать стандартными методами, обученными на меточных данных. В данном исследовании рассматривается задача распознавания главных особенностей г DEEPFAKES, применяя алгоритмы, которые могут эффективно работать с непомеченными данными. #### Метод Основной метод, предлагаемый в работе, называется Dual-Path Guidance Network (DPGNet). Он представляет собой совместное использование двух путей информации: текстового и визуального. Данный подход оптимизируется для решения двух ключевых проблем: (1) уменьшения различий между генерируемыми лицами различных моделей, и (2) использования непомеченных данных для обучения. - **Text-guided Cross-domain Alignment**: Этот модуль позволяет связать визуальные и текстовые признаки, используя универсальность текста для объединения разных доменов (генерируемые и настоящие лица). Используя "learnable prompts" (обучаемые подсказки), DPGNet способен привести визуальные и текстовые данные к общему, независимому от домена, функциональному пространству. - **Curriculum-driven Pseudo Label Generation**: Данный модуль раскрывает потенциал непомеченных данных, постепенно расширяя обучающую выборку с помощью динамической генерации псевдо-меток. Это позволяет модели учитывать более качественные семплы из непомеченных данных. - **Cross-domain Knowledge Distillation**: Чтобы обойти проблему "catastrophic forgetting" (забывание достигнутых навыков при изменении обучающих наборов), DPGNet использует методы кросс-доменного знания, чтобы лучше связать взаимосвязанные компоненты из разных доменов. #### Результаты В ходе экспериментов DPGNet был проверен на 11 популярных датасетах, где показал высокую точность в распознавании г DEEPFAKES. Метод демонстрирует зна

Abstract

Existing deepfake detection methods heavily depend on labeled training data. However, as AI-generated content becomes increasingly realistic, even \textbf{human annotators struggle to distinguish} between deepfakes and authentic images. This makes the labeling process both time-consuming and less reliable. Specifically, there is a growing demand for approaches that can effectively utilize large-scale unlabeled data from online social networks. Unlike typical unsupervised learning tasks, where categories are distinct, AI-generated faces closely mimic real image distributions and share strong similarities, causing performance drop in conventional strategies. In this paper, we introduce the Dual-Path Guidance Network (DPGNet), to tackle two key challenges: (1) bridging the domain gap between faces from different generation models, and (2) utilizing unlabeled image samples. The method features two core modules: text-guided cross-domain alignment, which uses learnable prompts to unify visual and textual embeddings into a domain-invariant feature space, and curriculum-driven pseudo label generation, which dynamically exploit more informative unlabeled samples. To prevent catastrophic forgetting, we also facilitate bridging between domains via cross-domain knowledge distillation. Extensive experiments on \textbf{11 popular datasets}, show that DPGNet outperforms SoTA approaches by \textbf{6.3\%}, highlighting its effectiveness in leveraging unlabeled data to address the annotation challenges posed by the increasing realism of deepfakes.

Ссылки и действия