MienCap: Realtime Performance-Based Facial Animation with Live Mood Dynamics

2508.04687v1 cs.GR, cs.CV, I.3.2; I.4.10 2025-08-09
Авторы:

Ye Pan, Ruisi Zhang, Jingying Wang, Nengfu Chen, Yilin Qiu, Yu Ding, Kenny Mitchell

Резюме на русском

**Резюме** Авторы предлагают MienCap — систему для реализации реалистичных 3D-анимаций лиц с учетом динамики эмоционального состояния. Основная проблема заключается в трудностях создания перспективных и анимированных 3D-моделей, которые сочетали бы техники классической анимации с новыми методами машинного обучения, обеспечивая актуальность, геометрическую консистентность и перспективность эмоциональных выражений. Решением становится совмещение традиционных техник вместе с нейросетевыми моделями для генерации реалистичных выражений лиц в реальном времени. Авторы предлагают два подхода: нереальное время с использованием 3D-технологий и реальное время с адаптацией технологии blendshape. Оба подхода показали высокую эффективность по сравнению с коммерческим продуктом Faceware, повысив значительно оценки на уровне распознавания выражений, их интенсивности и привлекательности. Это предоставляет аниматорам новые возможности для быстрого и точного создания эмоциональных выражений.

Abstract

Our purpose is to improve performance-based animation which can drive believable 3D stylized characters that are truly perceptual. By combining traditional blendshape animation techniques with multiple machine learning models, we present both non-real time and real time solutions which drive character expressions in a geometrically consistent and perceptually valid way. For the non-real time system, we propose a 3D emotion transfer network makes use of a 2D human image to generate a stylized 3D rig parameters. For the real time system, we propose a blendshape adaption network which generates the character rig parameter motions with geometric consistency and temporally stability. We demonstrate the effectiveness of our system by comparing to a commercial product Faceware. Results reveal that ratings of the recognition, intensity, and attractiveness of expressions depicted for animated characters via our systems are statistically higher than Faceware. Our results may be implemented into the animation pipeline, and provide animators with a system for creating the expressions they wish to use more quickly and accurately.

Ссылки и действия