Adversarial Attacks on Audio Deepfake Detection: A Benchmark and Comparative Study
2509.07132v1
cs.SD, cs.AI, cs.CV, cs.LG
2025-09-11
Авторы:
Kutub Uddin, Muhammad Umar Farooq, Awais Khan, Khalid Mahmood Malik
Резюме на русском
#### Контекст
Генерируемая с помощью искусственного интеллекта аудиосъемка, так называемая deepfake, стала одной из самых мощных технологий в современной цифровой среде. Она используется для подделки голосов, создания подлоговых аудио-видеоматериалов и даже обмана зрителей при помощи реалистичных, но ложной информации. Эта технология нашла применение в различных сферах: от развлечений до серьезных рисков в профессиональных сферах, например, в системах аудиоконференцсвязи, проверке личности по голосу и расследовании преступлений. Однако с этим резко возросло количество атак, направленных на подделку голоса или скрытие глубоких подделок. Эти атаки могут серьезно повлиять на безопасность, доверие к цифровым системам и юридические процессы.
#### Метод
Мы провели широкий анализ современных методов обнаружения глубоких подделок, посредством которых можно выявить глубокие подделки, использующие генерируемую звуковую информацию. Методика включала в себя два основных подхода: работу над звуковыми сигналами в "родном" формате (без предварительной обработки) и работу над спектрограммами (графическими представлениями звуковых сигналов). Мы использовали пять разных бенчмарк-датасетов, позволяющих протестировать различные методы обнаружения. Наша инфраструктура включала в себя такие подходы, как оптимизационные атаки (FGSM, PGD, C&W) и статистические модификации (например, разносятройка звуков, фильтрация, шум и др.). Мы проводили сравнительный анализ этих методов по метрикам, таким как точность, сенситивность и восстановление предложенных нюансов.
#### Результаты
Мы выполнили эксперименты на широком спектре глубоких подделок, используя пять разных датасетов. Мы оценивали как нововведения, так и уже существующие подходы к обнаружению глубоких подделок, чтобы понять, какие методы более эффективны в сравнении с другими. Наши результаты показали, что методы, основывающиеся на спектрограммах, показали лучший результат в том случае, когда данные были предварительно обработаны для извлечения закономерностей. Однако они оказались менее устойчивы в условиях атак, направленных на изменение звукового сигнала в "родной" формате.
#### Значимость
Наши результаты могут быть применены в сферах, где существует риск подделки голоса или глубоких подделок, таких как системы аудиоконференцсвязи, голосовые помощники, системы безопасности и проверка личности по голосу. Методы, разработанные в рамках нашего исследования, могут помочь в разработке более устойчивых систем,
Abstract
The widespread use of generative AI has shown remarkable success in producing
highly realistic deepfakes, posing a serious threat to various voice biometric
applications, including speaker verification, voice biometrics, audio
conferencing, and criminal investigations. To counteract this, several
state-of-the-art (SoTA) audio deepfake detection (ADD) methods have been
proposed to identify generative AI signatures to distinguish between real and
deepfake audio. However, the effectiveness of these methods is severely
undermined by anti-forensic (AF) attacks that conceal generative signatures.
These AF attacks span a wide range of techniques, including statistical
modifications (e.g., pitch shifting, filtering, noise addition, and
quantization) and optimization-based attacks (e.g., FGSM, PGD, C \& W, and
DeepFool). In this paper, we investigate the SoTA ADD methods and provide a
comparative analysis to highlight their effectiveness in exposing deepfake
signatures, as well as their vulnerabilities under adversarial conditions. We
conducted an extensive evaluation of ADD methods on five deepfake benchmark
datasets using two categories: raw and spectrogram-based approaches. This
comparative analysis enables a deeper understanding of the strengths and
limitations of SoTA ADD methods against diverse AF attacks. It does not only
highlight vulnerabilities of ADD methods, but also informs the design of more
robust and generalized detectors for real-world voice biometrics. It will
further guide future research in developing adaptive defense strategies that
can effectively counter evolving AF techniques.