KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

2509.20128v1 cs.GR, cs.AI, cs.CV, cs.MM 2025-09-26
Авторы:

Tianle Lyu, Junchuan Zhao, Ye Wang

Резюме на русском

################################# ## Контекст ################################# Говорящее-лицо синтезирование на основе звука является важной задачей в области мультимедиа, применяясь в таких областях, как видеоконференцсвязь, игры и видеообработка. Достижения в этой области влияют на качество интерактивности и удобства взаимодействия с пользователем. Несмотря на значительные успехи, существуют значительные ограничения: многие подходы рассматривают речевые признаки как неделимое целое, не учитывая их тонкие роли в воздействии на различные движения лица. Также, модели недостаточно оценивают важность моделирования ключевых кадров с высокой динамикой. Данный подход сталкивается со значительными трудностями в создании реалистичных и естественных анимированных лиц, что приводит к неестественным движениям и неточностям в синхронизации губ. ################################# ## Метод ################################# KSDiff предлагает решение для этих проблем с помощью Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Фреймворк включает в себя два ключевых модуля: 1. **Dual-Path Speech Encoder (DPSE):** Он разделяет речевые признаки на две части: одна отвечает за выражение, а другая — за движения головы. 2. **Keyframe Establishment Learning (KEL):** Этот модуль определяет ключевые кадры, характеризующиеся высокой динамикой. Интегрированный Dual-Path Motion Generator синтезирует согласованные и реалистичные движения лица, сочетая эти компоненты. Эта архитектура обеспечивает тонкую настройку синтезированных движений, учитывая как выражение, так и мотивные движения головы. ################################# ## Результаты ################################# Исследования проводились на двух наборах данных: HDTF и VoxCeleb. Метрики, такие как lip-sync accuracy и head-pose naturalness, показали выигрыш KSDiff перед соревнованиями. Эксперименты продемонстрировали, что KSDiff способен генерировать лица с точным губным синхронизмом и естественным движением головы. Также, модель превосходит конкурентов в создании реалистичных движений, даже при трудных условиях, таких как сильная акцентуация речи или сильные динамические изменения. ################################# ## Значимость ################################# Предложенная модель находит применение в различных областях, включая видеоконференцсвязь, игровые приложения и синтез речевого анализа. Она представляет собой значительный шаг вперед в создании говорящих лиц, улучшая естественность и точность моделирования. Выгоды KSDiff заключаются в более точной синхронизации губ, естественности движений головы и высокой степени детализации во взаимодействии с речью. Эти достижения открывают пути к более плавным и интерактивным взаимодействиям в мультимедийных приложениях. ################################# ## Выводы ################################# Предложенная модель KSDiff доказала свою эффективность в создании говорящих лиц, использу

Abstract

Audio-driven facial animation has made significant progress in multimedia applications, with diffusion models showing strong potential for talking-face synthesis. However, most existing works treat speech features as a monolithic representation and fail to capture their fine-grained roles in driving different facial motions, while also overlooking the importance of modeling keyframes with intense dynamics. To address these limitations, we propose KSDiff, a Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Specifically, the raw audio and transcript are processed by a Dual-Path Speech Encoder (DPSE) to disentangle expression-related and head-pose-related features, while an autoregressive Keyframe Establishment Learning (KEL) module predicts the most salient motion frames. These components are integrated into a Dual-path Motion generator to synthesize coherent and realistic facial motions. Extensive experiments on HDTF and VoxCeleb demonstrate that KSDiff achieves state-of-the-art performance, with improvements in both lip synchronization accuracy and head-pose naturalness. Our results highlight the effectiveness of combining speech disentanglement with keyframe-aware diffusion for talking-head generation.

Ссылки и действия

Связанные статьи

Zero-Shot Visual Deepfake Detection: Can AI Predict and Prevent Fake Content Bef...

#### Контекст Глубокоподдельные (deepfake) технологии, основанные на генеритивных противоположных сетях (GANs) и диффуз...

2025-09-25