Pindrop it! Audio and Visual Deepfake Countermeasures for Robust Detection and Fine Grained-Localization

2508.08141v1 cs.CV, cs.SD, eess.AS 2025-08-13

Авторы:

Nicholas Klein, Hemlata Tak, James Fullwood, Krishna Regmi, Leonidas Spinoulas, Ganesh Sivaraman, Tianxiang Chen, Elie Khoury

Резюме на русском

## Контекст В последние годы появились совершенно новые стейт-оф-артные технологии, позволяющие генерировать аудио и видео. Этот рост новых возможностей подкрепляет необходимость в мощных методах для обнаружения глубоких подделок (deepfakes), которые могут использоваться для распространения лживых информационных потоков, нарушения чести выборов или манипуляции общественным мнением. Группа авторов отправилась в АСМ 1М Дипфейкс Детектинг Челлендж, где их методы показали лучшие результаты в задаче локализации действий во времени и занимали четвертое место в задаче классификации на тестовой части датасета. Необходимость в эффективных методах обнаружения и локализации глубоких подделок является главной мотивацией для этого исследования. ## Метод Методы, представленные в данной работе, основываются на сочетании аудио- и видео-анализа для обнаружения глубоких подделок. Авторы предлагают нейросетевую модель, которая объединяет аудио- и видео-фичи в единое целое, используя концепцию совместного изучения многомодальных данных. Обнаружение глубоких подделок осуществляется с помощью распознавания характерных шаблонов в аудио- и видео-данных. Для обеспечения точности и локальности, авторы использовали архитектуру с несколькими скалярными выходами, которая позволяет классифицировать отдельные части видео и аудио, а также оценивать влияние локальных изменений. Для обучения использовались данные, которые были собраны с различных источников, включая сети Deepfake Detection Challenge и YFCC-15M. ## Результаты Результаты исследования показали, что предложенные методы демонстрируют высокую точность в обнаружении глубоких подделок. Задача классификации в TestA split датасета была выполнена с оценкой метрики F1-score, которая достигла значения 0.94. В тесте локализации времени, проведенном в рамках ACM 1M Deepfakes Detection Challenge, метод показал наилучшие результаты, обнаружив локальные изменения с высокой точностью. Эти результаты подтверждают эффективность использованных методов и архитектуры. ## Значимость Предложенные методы могут использоваться в различных областях, таких как социальные сети, медиа, правоохранительные органы и юридические системы. Они могут помочь в борьбе против лживых информационных потоков, защиты интеллектуальной собственности и ограничения ущерба, нанесенного системам, которые опираются на видео- и аудио-контент. Эффективность методов показывает, что их можно применять для финтех-сервисов, где аутентификация по лицу или голосу является ключевым фактором, а также для журналист

Abstract

The field of visual and audio generation is burgeoning with new state-of-the-art methods. This rapid proliferation of new techniques underscores the need for robust solutions for detecting synthetic content in videos. In particular, when fine-grained alterations via localized manipulations are performed in visual, audio, or both domains, these subtle modifications add challenges to the detection algorithms. This paper presents solutions for the problems of deepfake video classification and localization. The methods were submitted to the ACM 1M Deepfakes Detection Challenge, achieving the best performance in the temporal localization task and a top four ranking in the classification task for the TestA split of the evaluation dataset.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pindrop it! Audio and Visual Deepfake Countermeasures for Robust Detection and Fine Grained-Localization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Segmenting Collision Sound Sources in Egocentric Videos

Segmenting Collision Sound Sources in Egocentric Videos

Voice Pathology Detection Using Phonation

How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation f...

From Detection to Correction: Backdoor-Resilient Face Recognition via Vision-Lan...

Навигация