ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection
2508.17282v1
cs.AI, cs.SD
2025-08-27
Авторы:
Xin Zhang, Jiaming Chu, Jian Zhao, Yuchu Jiang, Xu Yang, Lei Jin, Chi Zhang, Xuelong Li
Резюме на русском
## Контекст
В настоящее время deepfake-контент становится все более распространенным, что создает серьезные проблемы в области идентификации и аутентификации мультимедийного содержимого. Данные, содержащиеся в аудио- и видеоформатах, часто имеют свои собственные уникальные признаки, которые могут быть использованы для выявления нарушений аутентичности. Однако возникают сложности в объединении этих двух модальностей для повышения точности и надежности. В связи с этим актуальной является разработка моделей, которые могут эффективно обрабатывать аудио-видео-данные вместе, обнаруживая подвох в контенте.
## Метод
ERF-BA-TFD+ — это модель, основанная на совместном использовании enhanced receptive field (ERF) и аудио-видео-фьюзинга. Она использует подходы, которые позволяют обрабатывать видео- и аудиоданные взаимосвязанно, при этом воспользовавшись преимуществами каждой модальности. ERF-BA-TFD+ ориентирована на моделирование длинных зависимостей в данных, что позволяет сопоставить и выделить различия в видео- и аудио-потоках. Ее архитектура включает несколько морфологических модулей, которые обеспечивают не только локальную обработку, но и глобальное понимание содержания. Эти модули работают вместе для построения представления, которое делает модель более точной и устойчивой к различным формам мошенничества.
## Результаты
Для проверки модели в работе использовался DDL-AV-датасет, который включал полные видео- и аудиозаписи, а также отдельные участки. Модель ERF-BA-TFD+ показала себя лучше, чем другие модели, которые ранее участвовали в DDL-AV-конкурсе. Она демонстрирует высокую точность в определении deepfake-контента, а также эффективность в процессинге данных. Эксперименты показали, что ERF-BA-TFD+ эффективно объединяет данные из двух модальностей, что позволяет ей выделять не только сильные, но и незначительные различия в контенте.
## Значимость
ERF-BA-TFD+ может применяться в различных областях, включая защиту от мошенничества, мониторинг мультимедийного контента и анализ содержимого в социальных сетях. Ее особенность заключается в том, что она может обрабатывать аудио-видео-данные вместе, что дает более широкий подход к обнаружению фальшивого контента. Это делает модель не только удобной в использовании, но и эффективной для решения реальных задач в безопасности и модерации контента.
## Выводы
ERF-BA-TFD+ установила новый стандарт в аудио-видео-детекции deepfake-контента. Она показала значительные достижения в точности и производительности в сравнении с предыдущими моделями. В будущем будут проводиться дополнительные исследования для расширения ее возможностей, в том числе рас
Abstract
Deepfake detection is a critical task in identifying manipulated multimedia
content. In real-world scenarios, deepfake content can manifest across multiple
modalities, including audio and video. To address this challenge, we present
ERF-BA-TFD+, a novel multimodal deepfake detection model that combines enhanced
receptive field (ERF) and audio-visual fusion. Our model processes both audio
and video features simultaneously, leveraging their complementary information
to improve detection accuracy and robustness. The key innovation of ERF-BA-TFD+
lies in its ability to model long-range dependencies within the audio-visual
input, allowing it to better capture subtle discrepancies between real and fake
content. In our experiments, we evaluate ERF-BA-TFD+ on the DDL-AV dataset,
which consists of both segmented and full-length video clips. Unlike previous
benchmarks, which focused primarily on isolated segments, the DDL-AV dataset
allows us to assess the model's performance in a more comprehensive and
realistic setting. Our method achieves state-of-the-art results on this
dataset, outperforming existing techniques in terms of both accuracy and
processing speed. The ERF-BA-TFD+ model demonstrated its effectiveness in the
"Workshop on Deepfake Detection, Localization, and Interpretability," Track 2:
Audio-Visual Detection and Localization (DDL-AV), and won first place in this
competition.
Ссылки и действия
Дополнительные ресурсы: