Untraceable DeepFakes via Traceable Fingerprint Elimination

2508.03067v1 cs.CR, cs.AI 2025-08-09
Авторы:

Jiewei Lai, Lan Zhang, Chen Tang, Pengcheng Sun, Xinming Wang, Yunhao Wang

Резюме на русском

**Резюме** В последние годы технологии атрибуции DeepFakes позволили выявлять следы, оставленные создательными моделями, и определять их источник. Однако это привело к развитию атак, стремящихся обойти эти методы, что, в свою очередь, способствует улучшению атрибутивных моделей. Однако до сих пор не было подходов, способных полностью убрать следы создательных моделей, позволяя глубокому подделке оставаться неотслеживаемой. В данной работе предлагается метод, основанный на мультипликативных атаках, который полностью удаляет следы создательных моделей, осложняя их подсчет даже при использовании защитных мер. Метод является универсальным и базований на технике глубокого обучения с использованием только реальных данных. Он может быть применен к различным создательным моделям и не зависит от атрибутивных моделей. Эксперименты показали, что этот метод достигает высокой успешности атаки (97,08%) против шести передовых атрибутивных моделей, несмотря на развитые защитные меры, эффективность остается высокой (72,39%). Результаты указывают на важность рассмотрения таких атак в разработке более надежных атрибутивных моделей.

Abstract

Recent advancements in DeepFakes attribution technologies have significantly enhanced forensic capabilities, enabling the extraction of traces left by generative models (GMs) in images, making DeepFakes traceable back to their source GMs. Meanwhile, several attacks have attempted to evade attribution models (AMs) for exploring their limitations, calling for more robust AMs. However, existing attacks fail to eliminate GMs' traces, thus can be mitigated by defensive measures. In this paper, we identify that untraceable DeepFakes can be achieved through a multiplicative attack, which can fundamentally eliminate GMs' traces, thereby evading AMs even enhanced with defensive measures. We design a universal and black-box attack method that trains an adversarial model solely using real data, applicable for various GMs and agnostic to AMs. Experimental results demonstrate the outstanding attack capability and universal applicability of our method, achieving an average attack success rate (ASR) of 97.08\% against 6 advanced AMs on DeepFakes generated by 9 GMs. Even in the presence of defensive mechanisms, our method maintains an ASR exceeding 72.39\%. Our work underscores the potential challenges posed by multiplicative attacks and highlights the need for more robust AMs.

Ссылки и действия