GRMM: Real-Time High-Fidelity Gaussian Morphable Head Model with Learned Residuals

2509.02141v1 cs.GR, cs.CV 2025-09-05
Авторы:

Mohit Mendiratta, Mayur Deshmukh, Kartik Teotia, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt

Резюме на русском

## Контекст В статье рассматривается проблема ограниченности традиционных 3D Morphable Models (3DMMs), основанных на PCA, в том числе в резолюции, детализации и фотореализме. Нейронаучные методы, напротив, оказываются недостаточно быстрыми для реального времени. Новые подходы на основе Gaussian Splatting (3DGS) позволяют достичь высокого качества и скорости, однако остаются зависимыми от традиционных mesh-based 3DMMs для управления выражениями, что ограничивает их точность и покрытие. Таким образом, есть необходимость в развитии моделей, которые обеспечат более тонкое управление геометрией и выражениями, а также обеспечат полное покрытие головы. ## Метод GRMM представляет собой первую полноформальную 3D Gaussian Morphable Head Model, которая расширяет базовую модель 3DMM добавляя residual geometry и appearance components. Эти additive refinements представляют собой добавочные детали, такие как wrinkles, fine skin texture, и hairline variations. GRMM работает с disentangled control, используя низкоразмерные интерпретируемые параметры (например, identity shape, facial expressions). Он состоит из coarse decoders для деформации меша на уровне вершин, fine decoders для подробного представления воздействия Gaussian, и lightweight CNN, который рефинит растеризованные изображения для повышения реализма. Реалистичность достигается благодаря высокой частоте работы - 75 FPS. GRMM также представляет EXPRESS-50 - первый датасет с 60 выражениями на 50 идентичностях, который позволяет обеспечить точное разделение identity и expression, способствуя улучшению модели. ## Результаты GRMM показал существенное превосходство по фидлизму и точности выражения в сравнении с состоянием техники по трем основным задачам: monocular 3D face reconstruction, novel-view synthesis, и expression transfer. Он достиг 75 FPS в реальном времени, что делает его применимым для AR/VR и анимации. Также, GRMM превзошёл традиционные технологии в точности моделируемого тела и выражений. ## Значимость GRMM может быть применен в сферах AR/VR, gaming, и face animation. Он обеспечивает более точное и реалистичное моделирование головы и выражений, чем предыдущие модели. Данный подход может привести к переменам в области 3D face modeling и interactive real-time editing. ## Выводы GRMM представляет собой первую полноформальную 3D Gaussian Morphable Head Model, которая предоставляет disentangled control и добавляет high-frequency details. Он превосходит состояние техники в трех ключевых задачах и работает в реальном времени. Будущие исследования будут сфокусированы на повышении реалистичности и дальнейшему повышению точности модели.

Abstract

3D Morphable Models (3DMMs) enable controllable facial geometry and expression editing for reconstruction, animation, and AR/VR, but traditional PCA-based mesh models are limited in resolution, detail, and photorealism. Neural volumetric methods improve realism but remain too slow for interactive use. Recent Gaussian Splatting (3DGS) based facial models achieve fast, high-quality rendering but still depend solely on a mesh-based 3DMM prior for expression control, limiting their ability to capture fine-grained geometry, expressions, and full-head coverage. We introduce GRMM, the first full-head Gaussian 3D morphable model that augments a base 3DMM with residual geometry and appearance components, additive refinements that recover high-frequency details such as wrinkles, fine skin texture, and hairline variations. GRMM provides disentangled control through low-dimensional, interpretable parameters (e.g., identity shape, facial expressions) while separately modelling residuals that capture subject- and expression-specific detail beyond the base model's capacity. Coarse decoders produce vertex-level mesh deformations, fine decoders represent per-Gaussian appearance, and a lightweight CNN refines rasterised images for enhanced realism, all while maintaining 75 FPS real-time rendering. To learn consistent, high-fidelity residuals, we present EXPRESS-50, the first dataset with 60 aligned expressions across 50 identities, enabling robust disentanglement of identity and expression in Gaussian-based 3DMMs. Across monocular 3D face reconstruction, novel-view synthesis, and expression transfer, GRMM surpasses state-of-the-art methods in fidelity and expression accuracy while delivering interactive real-time performance.

Ссылки и действия