Empowering Morphing Attack Detection using Interpretable Image-Text Foundation Model

2508.10110v1 cs.CV, cs.AI 2025-08-15

Авторы:

Sushrut Patwardhan, Raghavendra Ramachandra, Sushma Venkatesh

Резюме на русском

#### Контекст Мошеннические махинации в области лицензионной системы требуют эффективных мер по защите от мошенничества в лицензионных центрах. Одним из ключевых аспектов является обнаружение морфинговых атак, когда один и тот же фасад может использоваться для создания нескольких лицензий. Это угроза для безопасности и надежности любых систем лицензионного регистра. В этой работе предлагается многомодальный подход, способный не только обнаруживать морфинговые атаки, но и предоставлять интерпретируемые текстовые описания этих атак. #### Метод Методология основывается на использовании контрастивной модели обучения связующих языков и изображений (CLIP) для получения текстовых описаний. Архитектура основывается на создании модели, которая может принимать изображение и текстовый ключ, а затем выводить интерпретируемый текст. Модель обучается на обширных данных, включающих лицензионные фотографии и текстовые описания, позволяя таким образом обнаруживать и описывать морфинговые атаки. Метод также включает в себя процесс генерирования произвольных текстовых сниппетов, которые позволяют пользователю понять происходящие процессы. #### Результаты Проведены эксперименты на датасете, содержащем лицензионные фотографии, где применялись разные технологии морфинга. Модель была протестирована на возможности обнаружения морфинговых атак и получила высокую точность. Было проведено исследование различных текстовых примапов, включая короткие и длинные описания. Результаты показали, что модель предоставляет точные текстовые описания, помогающие пользователю понять, какие факторы привели к обнаружению морфинговой атаки. #### Значимость Предложенный подход может быть использован в различных сценариях, где требуется обнаружение морфинговых атак, таких как системы лицензионного регистра, аутентификация лиц и системы безопасности. Он обеспечивает интерпретируемые результаты, позволяющие лучше понять причины обнаружения морфинговой атаки, что может улучшить доверие к системе. #### Выводы Проведенные исследования показали, что модель демонстрирует высокую точность в обнаружении морфинговых атак и предоставляет интерпретируемые текстовые описания. Будущие исследования будут сконцентрированы на улучшении точности модели и интеграции её в реальные системы безопасности. Направления дополнительных исследований также будут включать расширение модели для обнаружения других типов мошенничества в области лицензионных систем.

Abstract

Morphing attack detection has become an essential component of face recognition systems for ensuring a reliable verification scenario. In this paper, we present a multimodal learning approach that can provide a textual description of morphing attack detection. We first show that zero-shot evaluation of the proposed framework using Contrastive Language-Image Pretraining (CLIP) can yield not only generalizable morphing attack detection, but also predict the most relevant text snippet. We present an extensive analysis of ten different textual prompts that include both short and long textual prompts. These prompts are engineered by considering the human understandable textual snippet. Extensive experiments were performed on a face morphing dataset that was developed using a publicly available face biometric dataset. We present an evaluation of SOTA pre-trained neural networks together with the proposed framework in the zero-shot evaluation of five different morphing generation techniques that are captured in three different mediums.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Empowering Morphing Attack Detection using Interpretable Image-Text Foundation Model

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация