Empowering Morphing Attack Detection using Interpretable Image-Text Foundation Model
2508.10110v1
cs.CV, cs.AI
2025-08-15
Авторы:
Sushrut Patwardhan, Raghavendra Ramachandra, Sushma Venkatesh
Резюме на русском
#### Контекст
Мошеннические махинации в области лицензионной системы требуют эффективных мер по защите от мошенничества в лицензионных центрах. Одним из ключевых аспектов является обнаружение морфинговых атак, когда один и тот же фасад может использоваться для создания нескольких лицензий. Это угроза для безопасности и надежности любых систем лицензионного регистра. В этой работе предлагается многомодальный подход, способный не только обнаруживать морфинговые атаки, но и предоставлять интерпретируемые текстовые описания этих атак.
#### Метод
Методология основывается на использовании контрастивной модели обучения связующих языков и изображений (CLIP) для получения текстовых описаний. Архитектура основывается на создании модели, которая может принимать изображение и текстовый ключ, а затем выводить интерпретируемый текст. Модель обучается на обширных данных, включающих лицензионные фотографии и текстовые описания, позволяя таким образом обнаруживать и описывать морфинговые атаки. Метод также включает в себя процесс генерирования произвольных текстовых сниппетов, которые позволяют пользователю понять происходящие процессы.
#### Результаты
Проведены эксперименты на датасете, содержащем лицензионные фотографии, где применялись разные технологии морфинга. Модель была протестирована на возможности обнаружения морфинговых атак и получила высокую точность. Было проведено исследование различных текстовых примапов, включая короткие и длинные описания. Результаты показали, что модель предоставляет точные текстовые описания, помогающие пользователю понять, какие факторы привели к обнаружению морфинговой атаки.
#### Значимость
Предложенный подход может быть использован в различных сценариях, где требуется обнаружение морфинговых атак, таких как системы лицензионного регистра, аутентификация лиц и системы безопасности. Он обеспечивает интерпретируемые результаты, позволяющие лучше понять причины обнаружения морфинговой атаки, что может улучшить доверие к системе.
#### Выводы
Проведенные исследования показали, что модель демонстрирует высокую точность в обнаружении морфинговых атак и предоставляет интерпретируемые текстовые описания. Будущие исследования будут сконцентрированы на улучшении точности модели и интеграции её в реальные системы безопасности. Направления дополнительных исследований также будут включать расширение модели для обнаружения других типов мошенничества в области лицензионных систем.
Abstract
Morphing attack detection has become an essential component of face
recognition systems for ensuring a reliable verification scenario. In this
paper, we present a multimodal learning approach that can provide a textual
description of morphing attack detection. We first show that zero-shot
evaluation of the proposed framework using Contrastive Language-Image
Pretraining (CLIP) can yield not only generalizable morphing attack detection,
but also predict the most relevant text snippet. We present an extensive
analysis of ten different textual prompts that include both short and long
textual prompts. These prompts are engineered by considering the human
understandable textual snippet. Extensive experiments were performed on a face
morphing dataset that was developed using a publicly available face biometric
dataset. We present an evaluation of SOTA pre-trained neural networks together
with the proposed framework in the zero-shot evaluation of five different
morphing generation techniques that are captured in three different mediums.
Ссылки и действия
Дополнительные ресурсы: