Audio2Face-3D: Audio-driven Realistic Facial Animation For Digital Avatars

2508.16401v1 cs.GR, cs.HC, cs.LG, cs.SD, eess.AS 2025-08-26
Авторы:

NVIDIA, :, Chaeyeon Chung, Ilya Fedorov, Michael Huang, Aleksey Karmanov, Dmitry Korobchenko, Roger Ribera, Yeongho Seol

Резюме на русском

## Контекст Аудио-движение лица (аудио-драйвен фейс энимайшн) является эффективным способом анимации цифровых аватаров. Он позволяет создавать реалистичные и динамичные образцы движений лица на основе звуковых сигналов. Однако существуют несколько значимых проблем в этой области, включая необходимость в высококачественных данных, сложность построения точных моделей, а также адаптации анимации для различных типов героев и сценариев. Изложенное решение может использоваться в различных цифровых индустриях, включая игроориентированные приложения, виртуальную реальность, а также области интерактивного контента. ## Метод Аудио2Фейс-3D (Audio2Face-3D) — это система, основанная на нейронных сетях, которая использует входные звуковые сигналы для анимации 3D-моделей лиц. Основная архитектура состоит из нескольких модулей: 1. **Акустический модуль** — обрабатывает звуковые сигналы, извлекая признаки, необходимые для анимации. 2. **Ретаргетинг и анимационный модуль** — применяет полученные признаки к 3D-модели лица, адаптируя движения под целевую модель. 3. **Оценочный модуль** — использует метрики качества для анализа результатов анимации. Архитектура задействует глубокие нейронные сети, в том числе квантизационные модели для эффективной обработки данных. ## Результаты Эксперименты проводились с использованием различных типов звуков, включая речь, музыку и другие звуковые выражения. Набор данных, использованный для обучения, включал видеозаписи лиц с аудиоподписями. Результаты показали высокую точность в анимации лица, особенно в сложных сценариях. Авторы также отметили улучшение качества анимации при использовании более объемных данных. ## Значимость Система Audio2Face-3D может применяться в игровых отраслях, виртуальных реальностях, а также в интерактивных приложениях. Он обеспечивает более высокую точность и скорость в анимации лиц, что существенно упрощает процесс разработки. Открытое открытие сетей и инструментов позволяет разработчикам создавать реалистичные модели лиц без значительных инвестиций в ресурсы. ## Выводы Работа Audio2Face-3D является значительным шагом в области аудио-движения лиц. Авторы отмечают, что будущие исследования будут сфокусированы на улучшении моделей для разных типов звуков и повышении точности в разных сценариях. Открытость проекта может способствовать развитию индустрии в отраслях, где реалистичная анимация играет ключевую роль.

Abstract

Audio-driven facial animation presents an effective solution for animating digital avatars. In this paper, we detail the technical aspects of NVIDIA Audio2Face-3D, including data acquisition, network architecture, retargeting methodology, evaluation metrics, and use cases. Audio2Face-3D system enables real-time interaction between human users and interactive avatars, facilitating facial animation authoring for game characters. To assist digital avatar creators and game developers in generating realistic facial animations, we have open-sourced Audio2Face-3D networks, SDK, training framework, and example dataset.

Ссылки и действия