Untraceable DeepFakes via Traceable Fingerprint Elimination
2508.03067v1
cs.CR, cs.AI
2025-08-09
Авторы:
Jiewei Lai, Lan Zhang, Chen Tang, Pengcheng Sun, Xinming Wang, Yunhao Wang
Резюме на русском
**Резюме**
В последние годы технологии атрибуции DeepFakes позволили выявлять следы, оставленные создательными моделями, и определять их источник. Однако это привело к развитию атак, стремящихся обойти эти методы, что, в свою очередь, способствует улучшению атрибутивных моделей. Однако до сих пор не было подходов, способных полностью убрать следы создательных моделей, позволяя глубокому подделке оставаться неотслеживаемой.
В данной работе предлагается метод, основанный на мультипликативных атаках, который полностью удаляет следы создательных моделей, осложняя их подсчет даже при использовании защитных мер. Метод является универсальным и базований на технике глубокого обучения с использованием только реальных данных. Он может быть применен к различным создательным моделям и не зависит от атрибутивных моделей. Эксперименты показали, что этот метод достигает высокой успешности атаки (97,08%) против шести передовых атрибутивных моделей, несмотря на развитые защитные меры, эффективность остается высокой (72,39%). Результаты указывают на важность рассмотрения таких атак в разработке более надежных атрибутивных моделей.
Abstract
Recent advancements in DeepFakes attribution technologies have significantly
enhanced forensic capabilities, enabling the extraction of traces left by
generative models (GMs) in images, making DeepFakes traceable back to their
source GMs. Meanwhile, several attacks have attempted to evade attribution
models (AMs) for exploring their limitations, calling for more robust AMs.
However, existing attacks fail to eliminate GMs' traces, thus can be mitigated
by defensive measures. In this paper, we identify that untraceable DeepFakes
can be achieved through a multiplicative attack, which can fundamentally
eliminate GMs' traces, thereby evading AMs even enhanced with defensive
measures. We design a universal and black-box attack method that trains an
adversarial model solely using real data, applicable for various GMs and
agnostic to AMs. Experimental results demonstrate the outstanding attack
capability and universal applicability of our method, achieving an average
attack success rate (ASR) of 97.08\% against 6 advanced AMs on DeepFakes
generated by 9 GMs. Even in the presence of defensive mechanisms, our method
maintains an ASR exceeding 72.39\%. Our work underscores the potential
challenges posed by multiplicative attacks and highlights the need for more
robust AMs.
Ссылки и действия
Дополнительные ресурсы: