Improving Facial Rig Semantics for Tracking and Retargeting

2508.08429v1 cs.GR, cs.CV 2025-08-14
Авторы:

Dalton Omens, Allise Thurman, Jihun Yu, Ronald Fedkiw

Резюме на русском

## Контекст Одним из важнейших аспектов современных технологий виртуальной реальности (VR) и игровой индустрии является точная работа с лицом персонажа в реальном времени. Однако существуют серьезные проблемы при попытке сопоставить лицо одного персонажа с другим, особенно если одно из них представляет собой виртуальный персонаж или герой игры. Проблема заключается в том, что рамки (rigs), используемые для трекинга и анимации лица, часто несовместимы. Данная работа призвана решить эту проблему, предлагая метод, который позволяет улучшить семантическую составляющую лицевого систематического моделирования (facial rig semantics), благодаря чему упрощается процесс сопоставления и ранее невозможного перенацеливания лица (retargeting). ## Метод Для решения проблемы сопоставления лицевых систематических моделей, авторы предлагают использовать метод **volumetric morphing** (твердотельное морфинге) для того, чтобы "приспособить" рамку одного лица под лицо другого. Чтобы добиться более точного соответствия, используется набор **Simon-Says expressions** (синонимы выражений), который позволяет калибровать рамки лица под конкретный актер или виртуальный персонаж. Этот набор выражений настраивается так, чтобы каждая рамка лица могла быть лучше скорректирована для достижения желаемых эмоций и выражений. Далее, для улучшения контроля над лицом используется **fine-tuning**, который использует **implicit differentiation** (неявное дифференцирование), чтобы избежать ошибок, которые могут возникать при работе с нечёткими или нестандартными рамками. ## Результаты В ходе экспериментов, проведенных с использованием различных рамков лиц (3DMM, FLAME и MetaHuman), показано, что предлагаемый подход способен значительно улучшить точность и семантическое соответствие лицов. При использовании Simon-Says expressions удалось оптимизировать рамки для того, чтобы имитировать выражения желаемого персонажа. Также, визуальные эксперименты показали, что при использовании fine-tuning можно добиться более живых и точных анимаций, даже в случае сложных сцен. Полученные результаты подтвердили, что метод обеспечивает лучшую семантическую точность и более надежную поддержку при реализации лицевой анимации. ## Значимость Предлагаемый подход имеет большое значение в таких областях, как VR, игровая индустрия и анимация. Он позволяет улучшить точность и эффективность лицевой анимации, что является ключевым фактором для создания более живых и реалистичных виртуальных окружений. Кроме того, использование **volumetric morphing** и **Simon-Says expressions** делает процесс сопоставления лиц более удобным и точным. Этот подход может существенно уменьшить время и сложность при разрабо

Abstract

In this paper, we consider retargeting a tracked facial performance to either another person or to a virtual character in a game or virtual reality (VR) environment. We remove the difficulties associated with identifying and retargeting the semantics of one rig framework to another by utilizing the same framework (3DMM, FLAME, MetaHuman, etc.) for both subjects. Although this does not constrain the choice of framework when retargeting from one person to another, it does force the tracker to use the game/VR character rig when retargeting to a game/VR character. We utilize volumetric morphing in order to fit facial rigs to both performers and targets; in addition, a carefully chosen set of Simon-Says expressions is used to calibrate each rig to the motion signatures of the relevant performer or target. Although a uniform set of Simon-Says expressions can likely be used for all person to person retargeting, we argue that person to game/VR character retargeting benefits from Simon-Says expressions that capture the distinct motion signature of the game/VR character rig. The Simon-Says calibrated rigs tend to produce the desired expressions when exercising animation controls (as expected). Unfortunately, these well-calibrated rigs still lead to undesirable controls when tracking a performance (a well-behaved function can have an arbitrarily ill-conditioned inverse), even though they typically produce acceptable geometry reconstructions. Thus, we propose a fine-tuning approach that modifies the rig used by the tracker in order to promote the output of more semantically meaningful animation controls, facilitating high efficacy retargeting. In order to better address real-world scenarios, the fine-tuning relies on implicit differentiation so that the tracker can be treated as a (potentially non-differentiable) black box.

Ссылки и действия