EAI-Avatar: Emotion-Aware Interactive Talking Head Generation
2508.18337v1
eess.AS, cs.AI, cs.SD
2025-08-28
Авторы:
Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang
Резюме на русском
## Контекст
Генерирующие модели становятся все более высокотехнологичными, в том числе в области говорящих головок (talking head generation). Однако большинство существующих моделей ограничиваются простой анимацией портрета в одностороннем режиме. Даже те, что могут обеспечить бидактивные диалоги, часто не умеют адаптироваться к эмоциям в реальном времени. Это ограничивает их практическое применение. Наша модель EAI-Avatar разработана для более естественных и эмоционально реагирующих диалогов, которые могут улучшить интерактивность в широком кругу приложений, таких как виртуальные ассистенты, игры и анимация.
## Метод
EAI-Avatar основывается на диалоге ло LLM (например, GPT-4) для генерации текста, который далее используется для синтеза говорящего голова. Мы используем Transformer-based head mask generator, который учится определять консистентные фичи движения в пространстве масок. Это позволяет синтезировать последовательности движений головы в любой продолжительности. Для улучшения эмоциональной реактивности мы представили интерактивное дерево диалогов (interactive talking tree), в котором каждый узел содержит информацию о родственных элементах, текущем состоянии эмоций и истории взаимодействия. Мы проводим обратную структурную иерархию (reverse-level traversal) для извлечения эмоциональных подсказок из предыдущих узлов и управляем эмоциональным синтезом выражений.
## Результаты
Мы провели эксперименты с различными диалогами и данными эмоций, сравнивая EAI-Avatar с другими моделями. Наши результаты показали значительное улучшение в точности адаптации эмоций и в качестве расширенных подсказок по диалогу. Модель удалось генерировать виртуальных аватаров с широким спектром эмоциональных реакций, которые выглядят натуральными и подходят для динамичных сценариев. Мы также проверили консистентность движений головы в продолжительных диалогах.
## Значимость
EAI-Avatar может применяться в различных областях, включая виртуальных ассистентов, игровые системы, обучающие платформы и анимацию. Он предлагает надежные решения для генерации говорящих голов с эмоциональным вовлечением и консистентностью. Это может сделать взаимодействия более естественными и отзывчивыми, что повысит удобство пользователей.
## Выводы
Мы предлагаем EAI-Avatar как новую модель для эмоционально реактивной говорящей головы. Будущие исследования будут фокусироваться на улучшении точности динамического синтеза эмоций, расширении интерактивных возможностей и оптимизации модели для реальных временных сценариев.
Abstract
Generative models have advanced rapidly, enabling impressive talking head
generation that brings AI to life. However, most existing methods focus solely
on one-way portrait animation. Even the few that support bidirectional
conversational interactions lack precise emotion-adaptive capabilities,
significantly limiting their practical applicability. In this paper, we propose
EAI-Avatar, a novel emotion-aware talking head generation framework for dyadic
interactions. Leveraging the dialogue generation capability of large language
models (LLMs, e.g., GPT-4), our method produces temporally consistent virtual
avatars with rich emotional variations that seamlessly transition between
speaking and listening states. Specifically, we design a Transformer-based head
mask generator that learns temporally consistent motion features in a latent
mask space, capable of generating arbitrary-length, temporally consistent mask
sequences to constrain head motions. Furthermore, we introduce an interactive
talking tree structure to represent dialogue state transitions, where each tree
node contains information such as child/parent/sibling nodes and the current
character's emotional state. By performing reverse-level traversal, we extract
rich historical emotional cues from the current node to guide expression
synthesis. Extensive experiments demonstrate the superior performance and
effectiveness of our method.
Ссылки и действия
Дополнительные ресурсы: