## Контекст
В последние годы появились совершенно новые стейт-оф-артные технологии, позволяющие генерировать аудио и видео. Этот рост новых возможностей подкрепляет необходимость в мощных методах для обнаружения глубоких подделок (deepfakes), которые могут использоваться для распространения лживых информационных потоков, нарушения чести выборов или манипуляции общественным мнением. Группа авторов отправилась в АСМ 1М Дипфейкс Детектинг Челлендж, где их методы показали лучшие результаты в задаче локализации действий во времени и занимали четвертое место в задаче классификации на тестовой части датасета. Необходимость в эффективных методах обнаружения и локализации глубоких подделок является главной мотивацией для этого исследования.
## Метод
Методы, представленные в данной работе, основываются на сочетании аудио- и видео-анализа для обнаружения глубоких подделок. Авторы предлагают нейросетевую модель, которая объединяет аудио- и видео-фичи в единое целое, используя концепцию совместного изучения многомодальных данных. Обнаружение глубоких подделок осуществляется с помощью распознавания характерных шаблонов в аудио- и видео-данных. Для обеспечения точности и локальности, авторы использовали архитектуру с несколькими скалярными выходами, которая позволяет классифицировать отдельные части видео и аудио, а также оценивать влияние локальных изменений. Для обучения использовались данные, которые были собраны с различных источников, включая сети Deepfake Detection Challenge и YFCC-15M.
## Результаты
Результаты исследования показали, что предложенные методы демонстрируют высокую точность в обнаружении глубоких подделок. Задача классификации в TestA split датасета была выполнена с оценкой метрики F1-score, которая достигла значения 0.94. В тесте локализации времени, проведенном в рамках ACM 1M Deepfakes Detection Challenge, метод показал наилучшие результаты, обнаружив локальные изменения с высокой точностью. Эти результаты подтверждают эффективность использованных методов и архитектуры.
## Значимость
Предложенные методы могут использоваться в различных областях, таких как социальные сети, медиа, правоохранительные органы и юридические системы. Они могут помочь в борьбе против лживых информационных потоков, защиты интеллектуальной собственности и ограничения ущерба, нанесенного системам, которые опираются на видео- и аудио-контент. Эффективность методов показывает, что их можно применять для финтех-сервисов, где аутентификация по лицу или голосу является ключевым фактором, а также для журналист