#### Контекст
Генерируемая с помощью искусственного интеллекта аудиосъемка, так называемая deepfake, стала одной из самых мощных технологий в современной цифровой среде. Она используется для подделки голосов, создания подлоговых аудио-видеоматериалов и даже обмана зрителей при помощи реалистичных, но ложной информации. Эта технология нашла применение в различных сферах: от развлечений до серьезных рисков в профессиональных сферах, например, в системах аудиоконференцсвязи, проверке личности по голосу и расследовании преступлений. Однако с этим резко возросло количество атак, направленных на подделку голоса или скрытие глубоких подделок. Эти атаки могут серьезно повлиять на безопасность, доверие к цифровым системам и юридические процессы.
#### Метод
Мы провели широкий анализ современных методов обнаружения глубоких подделок, посредством которых можно выявить глубокие подделки, использующие генерируемую звуковую информацию. Методика включала в себя два основных подхода: работу над звуковыми сигналами в "родном" формате (без предварительной обработки) и работу над спектрограммами (графическими представлениями звуковых сигналов). Мы использовали пять разных бенчмарк-датасетов, позволяющих протестировать различные методы обнаружения. Наша инфраструктура включала в себя такие подходы, как оптимизационные атаки (FGSM, PGD, C&W) и статистические модификации (например, разносятройка звуков, фильтрация, шум и др.). Мы проводили сравнительный анализ этих методов по метрикам, таким как точность, сенситивность и восстановление предложенных нюансов.
#### Результаты
Мы выполнили эксперименты на широком спектре глубоких подделок, используя пять разных датасетов. Мы оценивали как нововведения, так и уже существующие подходы к обнаружению глубоких подделок, чтобы понять, какие методы более эффективны в сравнении с другими. Наши результаты показали, что методы, основывающиеся на спектрограммах, показали лучший результат в том случае, когда данные были предварительно обработаны для извлечения закономерностей. Однако они оказались менее устойчивы в условиях атак, направленных на изменение звукового сигнала в "родной" формате.
#### Значимость
Наши результаты могут быть применены в сферах, где существует риск подделки голоса или глубоких подделок, таких как системы аудиоконференцсвязи, голосовые помощники, системы безопасности и проверка личности по голосу. Методы, разработанные в рамках нашего исследования, могут помочь в разработке более устойчивых систем,