Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation
2508.03055v1
cs.CV, cs.AI, I.4.8
2025-08-09
Авторы:
Hyebin Cho, Jaehyup Lee
Резюме на русском
**Резюме**
Современные видеофильтры для создания модных эффектов, таких как стилизация или лицевая замена, часто сталкиваются с проблемами в области обнаружения и сегментации лица в условиях наличия окклюзий, когда части лица (например, волосы, руки или аксессуары) бьются за счет удаления или повреждения изображения. Для решения этой проблемы представлена работа Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation. Авторы предлагают новое понятие — окклюзионно-осознанную маттирование лица — и предлагают FaceMat, бесшабашный фреймворк, который использует прогнозирование неопределенности для более точной разделки лица от окклюзий. Используя двухэтапную стратегию обучения, в том числе гидравлическую передачу знаний с гибкой локальной интерпретацией, FaceMat обеспечивает высокое качество разделки, даже в сложных условиях. Работа предлагает новую синтетическую базу данных CelebAMat, выполненную на основе CelebA, и показывает, что сравнительно лучшее качество использования квантования лица в реальном времени, что может существенно повысить качество эффектов в современных приложениях на основе AI.
Abstract
Face filters have become a key element of short-form video content, enabling
a wide array of visual effects such as stylization and face swapping. However,
their performance often degrades in the presence of occlusions, where objects
like hands, hair, or accessories obscure the face. To address this limitation,
we introduce the novel task of face matting, which estimates fine-grained alpha
mattes to separate occluding elements from facial regions. We further present
FaceMat, a trimap-free, uncertainty-aware framework that predicts high-quality
alpha mattes under complex occlusions. Our approach leverages a two-stage
training pipeline: a teacher model is trained to jointly estimate alpha mattes
and per-pixel uncertainty using a negative log-likelihood (NLL) loss, and this
uncertainty is then used to guide the student model through spatially adaptive
knowledge distillation. This formulation enables the student to focus on
ambiguous or occluded regions, improving generalization and preserving semantic
consistency. Unlike previous approaches that rely on trimaps or segmentation
masks, our framework requires no auxiliary inputs making it well-suited for
real-time applications. In addition, we reformulate the matting objective by
explicitly treating skin as foreground and occlusions as background, enabling
clearer compositing strategies. To support this task, we newly constructed
CelebAMat, a large-scale synthetic dataset specifically designed for
occlusion-aware face matting. Extensive experiments show that FaceMat
outperforms state-of-the-art methods across multiple benchmarks, enhancing the
visual quality and robustness of face filters in real-world, unconstrained
video scenarios. The source code and CelebAMat dataset are available at
https://github.com/hyebin-c/FaceMat.git
Ссылки и действия
Дополнительные ресурсы: