GRMM: Real-Time High-Fidelity Gaussian Morphable Head Model with Learned Residuals
2509.02141v1
cs.GR, cs.CV
2025-09-05
Авторы:
Mohit Mendiratta, Mayur Deshmukh, Kartik Teotia, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt
Резюме на русском
## Контекст
В статье рассматривается проблема ограниченности традиционных 3D Morphable Models (3DMMs), основанных на PCA, в том числе в резолюции, детализации и фотореализме. Нейронаучные методы, напротив, оказываются недостаточно быстрыми для реального времени. Новые подходы на основе Gaussian Splatting (3DGS) позволяют достичь высокого качества и скорости, однако остаются зависимыми от традиционных mesh-based 3DMMs для управления выражениями, что ограничивает их точность и покрытие. Таким образом, есть необходимость в развитии моделей, которые обеспечат более тонкое управление геометрией и выражениями, а также обеспечат полное покрытие головы.
## Метод
GRMM представляет собой первую полноформальную 3D Gaussian Morphable Head Model, которая расширяет базовую модель 3DMM добавляя residual geometry и appearance components. Эти additive refinements представляют собой добавочные детали, такие как wrinkles, fine skin texture, и hairline variations. GRMM работает с disentangled control, используя низкоразмерные интерпретируемые параметры (например, identity shape, facial expressions). Он состоит из coarse decoders для деформации меша на уровне вершин, fine decoders для подробного представления воздействия Gaussian, и lightweight CNN, который рефинит растеризованные изображения для повышения реализма. Реалистичность достигается благодаря высокой частоте работы - 75 FPS.
GRMM также представляет EXPRESS-50 - первый датасет с 60 выражениями на 50 идентичностях, который позволяет обеспечить точное разделение identity и expression, способствуя улучшению модели.
## Результаты
GRMM показал существенное превосходство по фидлизму и точности выражения в сравнении с состоянием техники по трем основным задачам: monocular 3D face reconstruction, novel-view synthesis, и expression transfer. Он достиг 75 FPS в реальном времени, что делает его применимым для AR/VR и анимации. Также, GRMM превзошёл традиционные технологии в точности моделируемого тела и выражений.
## Значимость
GRMM может быть применен в сферах AR/VR, gaming, и face animation. Он обеспечивает более точное и реалистичное моделирование головы и выражений, чем предыдущие модели. Данный подход может привести к переменам в области 3D face modeling и interactive real-time editing.
## Выводы
GRMM представляет собой первую полноформальную 3D Gaussian Morphable Head Model, которая предоставляет disentangled control и добавляет high-frequency details. Он превосходит состояние техники в трех ключевых задачах и работает в реальном времени. Будущие исследования будут сфокусированы на повышении реалистичности и дальнейшему повышению точности модели.
Abstract
3D Morphable Models (3DMMs) enable controllable facial geometry and
expression editing for reconstruction, animation, and AR/VR, but traditional
PCA-based mesh models are limited in resolution, detail, and photorealism.
Neural volumetric methods improve realism but remain too slow for interactive
use. Recent Gaussian Splatting (3DGS) based facial models achieve fast,
high-quality rendering but still depend solely on a mesh-based 3DMM prior for
expression control, limiting their ability to capture fine-grained geometry,
expressions, and full-head coverage. We introduce GRMM, the first full-head
Gaussian 3D morphable model that augments a base 3DMM with residual geometry
and appearance components, additive refinements that recover high-frequency
details such as wrinkles, fine skin texture, and hairline variations. GRMM
provides disentangled control through low-dimensional, interpretable parameters
(e.g., identity shape, facial expressions) while separately modelling residuals
that capture subject- and expression-specific detail beyond the base model's
capacity. Coarse decoders produce vertex-level mesh deformations, fine decoders
represent per-Gaussian appearance, and a lightweight CNN refines rasterised
images for enhanced realism, all while maintaining 75 FPS real-time rendering.
To learn consistent, high-fidelity residuals, we present EXPRESS-50, the first
dataset with 60 aligned expressions across 50 identities, enabling robust
disentanglement of identity and expression in Gaussian-based 3DMMs. Across
monocular 3D face reconstruction, novel-view synthesis, and expression
transfer, GRMM surpasses state-of-the-art methods in fidelity and expression
accuracy while delivering interactive real-time performance.
Ссылки и действия
Дополнительные ресурсы: