Beat on Gaze: Learning Stylized Generation of Gaze and Head Dynamics

2509.17168v1 cs.GR, cs.CV 2025-09-24
Авторы:

Chengwei Shi, Chong Cao, Xin Tong, Xukun Shen

Резюме на русском

## Контекст Область исследования, связанная с генерацией экспрессивных моделей 3D-фасок, играет ключевую роль в создании жизнеобразных интерактивных систем. Несмотря на развитие технологий, существуют серьезные проблемы, связанные с отсутствием высококачественных данных, что затрудняет создание достоверных моделей. Также отсутствуют методы, учитывающие не только голос, но и динамику головы и взгляда, что ограничивает способность генерировать синхронные и стилизованные модели голоса, головного движения и взгляда. Эти проблемы мотивируют разработку более детализированных и специализированных подходов, чтобы повысить реалистичность и эффективность анимации. ## Метод Метод StyGazeTalk предлагает инновационное решение для аудио-драйвенной генерации головных и взглядных динамик. Он основывается на использовании глубоких нейросетевых архитектур, включая модели LSTM с многоуровневой структурой. В этом подходе используется стилизационный энкодер, который позволяет генерировать различные модели движения, соответствующие специфике речи и стиля. Данные для обучения получены с помощью специального мультимодального набора данных, включающего глазную трассировку, звуковые сигналы, данные позы головы и 3D-модели лица. Этот подход позволяет создавать синхронные и стилизованные модели, которые могут учитывать специфику говорящего и стиля анимации. ## Результаты На основе созданного набора данных проводились эксперименты, которые позволили проверить эффективность метода StyGazeTalk. Использовалась метрика, оценивающая реализм и стилизованность полученных моделей. Результаты показали, что StyGazeTalk значительно превосходит существующие методы в синхронизации голоса, головных движений и взгляда. Это связано с возможностью генерировать живые модели, которые соответствуют специфике речи и стиля, что демонстрирует преимущества этого подхода в создании мотивированных и экспрессивных анимаций. ## Значимость Результаты StyGazeTalk могут быть применены в различных технологических областях, включая VR/AR, добавление эмоционального контента в игры и видеоконтент. Этот подход отличается своей способностью генерировать живые и стилизованные модели, что повышает качество интерактивных систем. Кроме того, высококачественный набор данных, представленный в этой работе, может стать ресурсом для дальнейших исследований в области анимации лица и голоса. ## Выводы Эксперименты подтвердили эффективность StyGazeTalk в генерации реалистичных и стилизованных моделей головного движения и взгляда. Данный подход является значительным шаго

Abstract

Head and gaze dynamics are crucial in expressive 3D facial animation for conveying emotion and intention. However, existing methods frequently address facial components in isolation, overlooking the intricate coordination between gaze, head motion, and speech. The scarcity of high-quality gaze-annotated datasets hinders the development of data-driven models capable of capturing realistic, personalized gaze control. To address these challenges, we propose StyGazeTalk, an audio-driven method that generates synchronized gaze and head motion styles. We extract speaker-specific motion traits from gaze-head sequences with a multi-layer LSTM structure incorporating a style encoder, enabling the generation of diverse animation styles. We also introduce a high-precision multimodal dataset comprising eye-tracked gaze, audio, head pose, and 3D facial parameters, providing a valuable resource for training and evaluating head and gaze control models. Experimental results demonstrate that our method generates realistic, temporally coherent, and style-aware head-gaze motions, significantly advancing the state-of-the-art in audio-driven facial animation.

Ссылки и действия