Multi View Slot Attention Using Paraphrased Texts For Face Anti-Spoofing

2509.06336v1 cs.CV, cs.AI, cs.CR 2025-09-10
Авторы:

Jeongmin Yu, Susang Kim, Kisu Lee, Taekyoung Kwon, Won-Yong Shin, Ha Young Kim

Резюме на русском

## Контекст Face anti-spoofing (FAS) — критическая задача в области безопасности и аутентификации, которая стремится отличить настоящие лица от имитаций. Несмотря на развитие методов FAS, остаются существенные проблемы, такие как недостаток общедоступных данных, ограниченная универсальность и трудность обнаружения сложных механизмов спуфинга. Недавние работы используют языковые модели, такие как CLIP, для улучшения generalization и обнаружения кросс-доменных задач. Однако, существующие решения не полностью используют возможности CLIP, особенно в выделении ключевых признаков спуфинга. Поэтому, необходимо развитие методов, которые бы улучшили качество обнаружения спуфинга, обеспечили кросс-доменную универсальность и повысили обобщаемость. ## Метод Мы предлагаем MVP-FAS — новую архитектуру, включающую два модуля: Multi-View Slot Attention (MVS) и Multi-Text Patch Alignment (MTPA). **MVS** применяет клоны CLIP для выделения локальных детальных признаков и глобального контекста. Он использует несколько парафразированных текстов, таких как "live" и "fake", для улучшения обнаружения ключевых признаков. **MTPA** выравнивает патчи с разными представлениями текста, что позволяет повысить устойчивость и общий контекст. Эти модули работают вместе для оптимального представления и обнаружения. Мы также используем трансформерские модели для объединения этих представлений. ## Результаты Мы проводили эксперименты на нескольких кросс-доменных датасетах, таких как OULU-NPU и SiW. Модель MVP-FAS показала высокую точность и общую универсальность в сравнении с предыдущими стандартными подходами. Мы также проверяли ее на разных типах спуфинга, и она показала значительное улучшение в обнаружении трудных спуфингов. Модель также показала модульность и устойчивость к ошибкам. ## Значимость Модель MVP-FAS может быть применена в различных областях безопасности, таких как банковские системы, доступ к устройствам и системы аутентификации. Это решение превосходит предыдущие подходы в обнаружении кросс-доменных задач, обеспечивая более точное и устойчивое обнаружение. Улучшение в кросс-доменной обобщаемости делает MVP-FAS более полезной для реализации в реальных условиях. ## Выводы Мы представили MVP-FAS, модель, которая улучшила обнаружение спуфинга с помощью новых модулей MVS и MTPA. Мы демонстрируем ее высокую точность и общую обобщаемость в кросс-доменных сценариях. В дальнейшем, мы планируем расширить модель для работы с более сложными видами спуфинга и исследовать ее возможности в других задачах, таких как текстово-визуальные модели.

Abstract

Recent face anti-spoofing (FAS) methods have shown remarkable cross-domain performance by employing vision-language models like CLIP. However, existing CLIP-based FAS models do not fully exploit CLIP's patch embedding tokens, failing to detect critical spoofing clues. Moreover, these models rely on a single text prompt per class (e.g., 'live' or 'fake'), which limits generalization. To address these issues, we propose MVP-FAS, a novel framework incorporating two key modules: Multi-View Slot attention (MVS) and Multi-Text Patch Alignment (MTPA). Both modules utilize multiple paraphrased texts to generate generalized features and reduce dependence on domain-specific text. MVS extracts local detailed spatial features and global context from patch embeddings by leveraging diverse texts with multiple perspectives. MTPA aligns patches with multiple text representations to improve semantic robustness. Extensive experiments demonstrate that MVP-FAS achieves superior generalization performance, outperforming previous state-of-the-art methods on cross-domain datasets. Code: https://github.com/Elune001/MVP-FAS.

Ссылки и действия