READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
2508.03457v2
cs.GR, cs.CV, cs.SD, eess.AS
2025-08-09
Авторы:
Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu
Резюме на русском
Реализация моделей, основанных на распространенных методах генерирования речи и говорящих голов, возникает проблема с длительным временем вывода, что ограничивает их практическое применение. Мы предлагаем READ (Real-time and Efficient Asynchronous Diffusion) — первый рамфрейм для генерации говорящих голов, основанный на модели распределения, который достигает реального времени. Основная идея заключается в том, чтобы уменьшить количество токенов с помощью временной VAO, а затем использовать предварительно обученный Speech Autoencoder (SpeechAE) для создания кодов видео-информации, соответствующих видео-локальным кодам. Эти коды моделируются с помощью новой сети Audio-to-Video Diffusion Transformer (A2V-DiT) для эффективной генерации. Чтобы обеспечить консистентность и ускорить вывод в расширенной постановке, мы предлагаем асинхронный шейпер шума (ANS). Наши эксперименты показывают, что READ многократно превосходит состояние технологий, обеспечивая высокую скорость, не отказываясь от качества и метрической стабильности на протяжении долгого времени.
Abstract
The introduction of diffusion models has brought significant advances to the
field of audio-driven talking head generation. However, the extremely slow
inference speed severely limits the practical implementation of diffusion-based
talking head generation models. In this study, we propose READ, the first
real-time diffusion-transformer-based talking head generation framework. Our
approach first learns a spatiotemporal highly compressed video latent space via
a temporal VAE, significantly reducing the token count to accelerate
generation. To achieve better audio-visual alignment within this compressed
latent space, a pre-trained Speech Autoencoder (SpeechAE) is proposed to
generate temporally compressed speech latent codes corresponding to the video
latent space. These latent representations are then modeled by a carefully
designed Audio-to-Video Diffusion Transformer (A2V-DiT) backbone for efficient
talking head synthesis. Furthermore, to ensure temporal consistency and
accelerated inference in extended generation, we propose a novel asynchronous
noise scheduler (ANS) for both the training and inference process of our
framework. The ANS leverages asynchronous add-noise and asynchronous
motion-guided generation in the latent space, ensuring consistency in generated
video clips. Experimental results demonstrate that READ outperforms
state-of-the-art methods by generating competitive talking head videos with
significantly reduced runtime, achieving an optimal balance between quality and
speed while maintaining robust metric stability in long-time generation.