RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis

2508.12163v1 cs.CV, cs.AI, cs.HC, cs.LG, I.4; I.3; I.2 2025-08-19

Авторы:

Wenqing Wang, Yun Fu

Резюме на русском

#### Контекст Эмоции являются ключевым компонентом искусственного социального интеллекта. Однако, несмотря на то, что нынешние методы достигли высокой точности в синтезе говорящих голов и качества изображения, они часто сталкиваются с проблемой точного генерирования эмоциональных выражений, сохраняя при этом точность идентификации субъекта. Это приводит к неестественности и неподходящим эмоциональным реакциям. Для решения этой проблемы мы предлагаем RealTalk — новую систему для создания реалистичных эмоциональных говорящих голов, которая обеспечивает высокую точность в определении эмоций, эмоциональную контролируемость и надежные результаты в сохранении идентичности. #### Метод RealTalk основывается на комбинации вариационного автоэнкодера (VAE) и модели ResNet-based landmark deformation model (LDM). Аудиосигнал обучает VAE для генерирования 3D-фасетов лица. Эти фасетов затем конкатенируются с эмоциональными этикетками, используя LDM, чтобы создавать эмоционально-специфические фасетовые деформации. Эти деформации, вместе с фасетовыми коэффициентами лица, подаются в NeRF с три-плоскостным аутентификатором для создания реалистичных эмоциональных говорящих голов. Наша архитектура работает на базе NeRF, но применяет дополнительные эмоциональные признаки для улучшения реализма и контроля. #### Результаты Мы провели серию экспериментов на различных данных, включая говорящие головы с различными эмоциями. Наши результаты показывают, что RealTalk превосходит существующие методы в области точности, контроля и сохранения идентичности. Мы также провели сравнительный анализ с наиболее популярными моделями, подтвердив, что RealTalk обеспечивает более естественные и точные эмоциональные выражения. Эти результаты подтверждают ценность нашего подхода в создании систем, которые могут эмоционально взаимодействовать с пользователями. #### Значимость Применение RealTalk может иметь значительные последствия в области искусственного интеллекта, в частности для создания социально интеллектуальных систем. Наши результаты демонстрируют повышенную точность и контроль эмоциональных выражений, что может быть удобно для видеоконференций, геймдизайна, робототехники и других приложений, требующих эмоциональной интерактивности. Помимо этого, RealTalk может быть использован в области психологии для исследования эмоциональных реакций и в обучении искусственного интеллекта. #### Выводы Мы представили RealTalk — новую модель для эмоционального синтеза говорящих голов, которая обеспечивает высокую точность эмоционального выражения, эмоциональную контролируемость и надежную идентичность. Наши результаты показывают, что RealTalk п

Abstract

Emotion is a critical component of artificial social intelligence. However, while current methods excel in lip synchronization and image quality, they often fail to generate accurate and controllable emotional expressions while preserving the subject's identity. To address this challenge, we introduce RealTalk, a novel framework for synthesizing emotional talking heads with high emotion accuracy, enhanced emotion controllability, and robust identity preservation. RealTalk employs a variational autoencoder (VAE) to generate 3D facial landmarks from driving audio, which are concatenated with emotion-label embeddings using a ResNet-based landmark deformation model (LDM) to produce emotional landmarks. These landmarks and facial blendshape coefficients jointly condition a novel tri-plane attention Neural Radiance Field (NeRF) to synthesize highly realistic emotional talking heads. Extensive experiments demonstrate that RealTalk outperforms existing methods in emotion accuracy, controllability, and identity preservation, advancing the development of socially intelligent AI systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация