When Deepfake Detection Meets Graph Neural Network:a Unified and Lightweight Learning Framework

2508.05526v1 cs.CV 2025-08-09
Авторы:

Haoyu Liu, Chaoyu Gong, Mengke He, Jiate Li, Kai Han, Siqiang Luo

Резюме на русском

Модели генерирующих видео становятся все более распространенными, что создает актуальную проблему обнаружения AI-генерируемых и манипулированных видео. Традиционные методы часто не подходят для обнаружения разнообразных типов манипуляций, так как ориентируются только на частичную информацию (пространственную, временную или спектральную). Кроме того, эффективные решения требуют объемных моделей, что ограничивает их применение в реальном мире. В данной работе предлагается SSTGNN — новая легковесная архитектура Spatial-Spectral-Temporal Graph Neural Network, которая представляет видео в виде структурированных графов и обеспечивает совместное разумление пространственных несоответствий, временных артефактов и спектральных деформаций. Архитектура SSTGNN включает в себя обучаемые спектральные фильтры и моделирование временных зависимостей, что позволяет эффективно выделять тонкие следы манипуляций. Эксперименты на различных бенчмарк-датасетах показали, что SSTGNN не только превосходит состояние искуствения в области видео-обнаружения, но и демонстрирует сильную устойчивость к невиденным манипуляциям. Более того, SSTGNN является до 42.4 раз менее параметричным, чем современные модели, что делает его высоко легковесным и скалируемым для реализации в реальных условиях.

Abstract

The proliferation of generative video models has made detecting AI-generated and manipulated videos an urgent challenge. Existing detection approaches often fail to generalize across diverse manipulation types due to their reliance on isolated spatial, temporal, or spectral information, and typically require large models to perform well. This paper introduces SSTGNN, a lightweight Spatial-Spectral-Temporal Graph Neural Network framework that represents videos as structured graphs, enabling joint reasoning over spatial inconsistencies, temporal artifacts, and spectral distortions. SSTGNN incorporates learnable spectral filters and temporal differential modeling into a graph-based architecture, capturing subtle manipulation traces more effectively. Extensive experiments on diverse benchmark datasets demonstrate that SSTGNN not only achieves superior performance in both in-domain and cross-domain settings, but also offers strong robustness against unseen manipulations. Remarkably, SSTGNN accomplishes these results with up to 42.4$\times$ fewer parameters than state-of-the-art models, making it highly lightweight and scalable for real-world deployment.

Ссылки и действия