EAI-Avatar: Emotion-Aware Interactive Talking Head Generation

2508.18337v1 eess.AS, cs.AI, cs.SD 2025-08-28
Авторы:

Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang

Резюме на русском

## Контекст Генерирующие модели становятся все более высокотехнологичными, в том числе в области говорящих головок (talking head generation). Однако большинство существующих моделей ограничиваются простой анимацией портрета в одностороннем режиме. Даже те, что могут обеспечить бидактивные диалоги, часто не умеют адаптироваться к эмоциям в реальном времени. Это ограничивает их практическое применение. Наша модель EAI-Avatar разработана для более естественных и эмоционально реагирующих диалогов, которые могут улучшить интерактивность в широком кругу приложений, таких как виртуальные ассистенты, игры и анимация. ## Метод EAI-Avatar основывается на диалоге ло LLM (например, GPT-4) для генерации текста, который далее используется для синтеза говорящего голова. Мы используем Transformer-based head mask generator, который учится определять консистентные фичи движения в пространстве масок. Это позволяет синтезировать последовательности движений головы в любой продолжительности. Для улучшения эмоциональной реактивности мы представили интерактивное дерево диалогов (interactive talking tree), в котором каждый узел содержит информацию о родственных элементах, текущем состоянии эмоций и истории взаимодействия. Мы проводим обратную структурную иерархию (reverse-level traversal) для извлечения эмоциональных подсказок из предыдущих узлов и управляем эмоциональным синтезом выражений. ## Результаты Мы провели эксперименты с различными диалогами и данными эмоций, сравнивая EAI-Avatar с другими моделями. Наши результаты показали значительное улучшение в точности адаптации эмоций и в качестве расширенных подсказок по диалогу. Модель удалось генерировать виртуальных аватаров с широким спектром эмоциональных реакций, которые выглядят натуральными и подходят для динамичных сценариев. Мы также проверили консистентность движений головы в продолжительных диалогах. ## Значимость EAI-Avatar может применяться в различных областях, включая виртуальных ассистентов, игровые системы, обучающие платформы и анимацию. Он предлагает надежные решения для генерации говорящих голов с эмоциональным вовлечением и консистентностью. Это может сделать взаимодействия более естественными и отзывчивыми, что повысит удобство пользователей. ## Выводы Мы предлагаем EAI-Avatar как новую модель для эмоционально реактивной говорящей головы. Будущие исследования будут фокусироваться на улучшении точности динамического синтеза эмоций, расширении интерактивных возможностей и оптимизации модели для реальных временных сценариев.

Abstract

Generative models have advanced rapidly, enabling impressive talking head generation that brings AI to life. However, most existing methods focus solely on one-way portrait animation. Even the few that support bidirectional conversational interactions lack precise emotion-adaptive capabilities, significantly limiting their practical applicability. In this paper, we propose EAI-Avatar, a novel emotion-aware talking head generation framework for dyadic interactions. Leveraging the dialogue generation capability of large language models (LLMs, e.g., GPT-4), our method produces temporally consistent virtual avatars with rich emotional variations that seamlessly transition between speaking and listening states. Specifically, we design a Transformer-based head mask generator that learns temporally consistent motion features in a latent mask space, capable of generating arbitrary-length, temporally consistent mask sequences to constrain head motions. Furthermore, we introduce an interactive talking tree structure to represent dialogue state transitions, where each tree node contains information such as child/parent/sibling nodes and the current character's emotional state. By performing reverse-level traversal, we extract rich historical emotional cues from the current node to guide expression synthesis. Extensive experiments demonstrate the superior performance and effectiveness of our method.

Ссылки и действия

Связанные статьи

Unsupervised Speech Enhancement using Data-defined Priors

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости ...

2025-10-01

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

## Контекст Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической...

2025-09-26