Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation

2508.03055v1 cs.CV, cs.AI, I.4.8 2025-08-09
Авторы:

Hyebin Cho, Jaehyup Lee

Резюме на русском

**Резюме** Современные видеофильтры для создания модных эффектов, таких как стилизация или лицевая замена, часто сталкиваются с проблемами в области обнаружения и сегментации лица в условиях наличия окклюзий, когда части лица (например, волосы, руки или аксессуары) бьются за счет удаления или повреждения изображения. Для решения этой проблемы представлена работа Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation. Авторы предлагают новое понятие — окклюзионно-осознанную маттирование лица — и предлагают FaceMat, бесшабашный фреймворк, который использует прогнозирование неопределенности для более точной разделки лица от окклюзий. Используя двухэтапную стратегию обучения, в том числе гидравлическую передачу знаний с гибкой локальной интерпретацией, FaceMat обеспечивает высокое качество разделки, даже в сложных условиях. Работа предлагает новую синтетическую базу данных CelebAMat, выполненную на основе CelebA, и показывает, что сравнительно лучшее качество использования квантования лица в реальном времени, что может существенно повысить качество эффектов в современных приложениях на основе AI.

Abstract

Face filters have become a key element of short-form video content, enabling a wide array of visual effects such as stylization and face swapping. However, their performance often degrades in the presence of occlusions, where objects like hands, hair, or accessories obscure the face. To address this limitation, we introduce the novel task of face matting, which estimates fine-grained alpha mattes to separate occluding elements from facial regions. We further present FaceMat, a trimap-free, uncertainty-aware framework that predicts high-quality alpha mattes under complex occlusions. Our approach leverages a two-stage training pipeline: a teacher model is trained to jointly estimate alpha mattes and per-pixel uncertainty using a negative log-likelihood (NLL) loss, and this uncertainty is then used to guide the student model through spatially adaptive knowledge distillation. This formulation enables the student to focus on ambiguous or occluded regions, improving generalization and preserving semantic consistency. Unlike previous approaches that rely on trimaps or segmentation masks, our framework requires no auxiliary inputs making it well-suited for real-time applications. In addition, we reformulate the matting objective by explicitly treating skin as foreground and occlusions as background, enabling clearer compositing strategies. To support this task, we newly constructed CelebAMat, a large-scale synthetic dataset specifically designed for occlusion-aware face matting. Extensive experiments show that FaceMat outperforms state-of-the-art methods across multiple benchmarks, enhancing the visual quality and robustness of face filters in real-world, unconstrained video scenarios. The source code and CelebAMat dataset are available at https://github.com/hyebin-c/FaceMat.git

Ссылки и действия