KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation
2509.20128v1
cs.GR, cs.AI, cs.CV, cs.MM
2025-09-26
Авторы:
Tianle Lyu, Junchuan Zhao, Ye Wang
Резюме на русском
#################################
## Контекст
#################################
Говорящее-лицо синтезирование на основе звука является важной задачей в области мультимедиа, применяясь в таких областях, как видеоконференцсвязь, игры и видеообработка. Достижения в этой области влияют на качество интерактивности и удобства взаимодействия с пользователем. Несмотря на значительные успехи, существуют значительные ограничения: многие подходы рассматривают речевые признаки как неделимое целое, не учитывая их тонкие роли в воздействии на различные движения лица. Также, модели недостаточно оценивают важность моделирования ключевых кадров с высокой динамикой. Данный подход сталкивается со значительными трудностями в создании реалистичных и естественных анимированных лиц, что приводит к неестественным движениям и неточностям в синхронизации губ.
#################################
## Метод
#################################
KSDiff предлагает решение для этих проблем с помощью Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Фреймворк включает в себя два ключевых модуля:
1. **Dual-Path Speech Encoder (DPSE):** Он разделяет речевые признаки на две части: одна отвечает за выражение, а другая — за движения головы.
2. **Keyframe Establishment Learning (KEL):** Этот модуль определяет ключевые кадры, характеризующиеся высокой динамикой.
Интегрированный Dual-Path Motion Generator синтезирует согласованные и реалистичные движения лица, сочетая эти компоненты. Эта архитектура обеспечивает тонкую настройку синтезированных движений, учитывая как выражение, так и мотивные движения головы.
#################################
## Результаты
#################################
Исследования проводились на двух наборах данных: HDTF и VoxCeleb. Метрики, такие как lip-sync accuracy и head-pose naturalness, показали выигрыш KSDiff перед соревнованиями. Эксперименты продемонстрировали, что KSDiff способен генерировать лица с точным губным синхронизмом и естественным движением головы. Также, модель превосходит конкурентов в создании реалистичных движений, даже при трудных условиях, таких как сильная акцентуация речи или сильные динамические изменения.
#################################
## Значимость
#################################
Предложенная модель находит применение в различных областях, включая видеоконференцсвязь, игровые приложения и синтез речевого анализа. Она представляет собой значительный шаг вперед в создании говорящих лиц, улучшая естественность и точность моделирования. Выгоды KSDiff заключаются в более точной синхронизации губ, естественности движений головы и высокой степени детализации во взаимодействии с речью. Эти достижения открывают пути к более плавным и интерактивным взаимодействиям в мультимедийных приложениях.
#################################
## Выводы
#################################
Предложенная модель KSDiff доказала свою эффективность в создании говорящих лиц, использу
Abstract
Audio-driven facial animation has made significant progress in multimedia
applications, with diffusion models showing strong potential for talking-face
synthesis. However, most existing works treat speech features as a monolithic
representation and fail to capture their fine-grained roles in driving
different facial motions, while also overlooking the importance of modeling
keyframes with intense dynamics. To address these limitations, we propose
KSDiff, a Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework.
Specifically, the raw audio and transcript are processed by a Dual-Path Speech
Encoder (DPSE) to disentangle expression-related and head-pose-related
features, while an autoregressive Keyframe Establishment Learning (KEL) module
predicts the most salient motion frames. These components are integrated into a
Dual-path Motion generator to synthesize coherent and realistic facial motions.
Extensive experiments on HDTF and VoxCeleb demonstrate that KSDiff achieves
state-of-the-art performance, with improvements in both lip synchronization
accuracy and head-pose naturalness. Our results highlight the effectiveness of
combining speech disentanglement with keyframe-aware diffusion for talking-head
generation.