📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
2025-08-09Авторы:
Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu
Реализация моделей, основанных на распространенных методах генерирования речи и говорящих голов, возникает проблема с длительным временем вывода, что ограничивает их практическое применение. Мы предлагаем READ (Real-time and Efficient Asynchronous Diffusion) — первый рамфрейм для генерации говорящих голов, основанный на модели распределения, который достигает реального времени. Основная идея заключается в том, чтобы уменьшить количество токенов с помощью временной VAO, а затем использовать предварительно обученный Speech Autoencoder (SpeechAE) для создания кодов видео-информации, соответствующих видео-локальным кодам. Эти коды моделируются с помощью новой сети Audio-to-Video Diffusion Transformer (A2V-DiT) для эффективной генерации. Чтобы обеспечить консистентность и ускорить вывод в расширенной постановке, мы предлагаем асинхронный шейпер шума (ANS). Наши эксперименты показывают, что READ многократно превосходит состояние технологий, обеспечивая высокую скорость, не отказываясь от качества и метрической стабильности на протяжении долгого времени.
Annotation:
The introduction of diffusion models has brought significant advances to the
field of audio-driven talking head generation. However, the extremely slow
inference speed severely limits the practical implementation of diffusion-based
talking head generation models. In this study, we propose READ, the first
real-time diffusion-transformer-based talking head generation framework. Our
approach first learns a spatiotemporal highly compressed video latent space via
a temporal VAE, significantly reducin...
Авторы:
Fangyu Du, Taiqing Li, Ziwei Zhang, Qian Qiao, Tan Yu, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu
Аудио-синхронизированная портретная анимация является важной задачей, связанной с генерацией реалистичных и синхронных видеопортретов, активируемых аудиосигналом. Однако существующие решения сталкиваются с трудностями в реализации действительно реального времени (real-time), возникающими из-за высокой сложности вычислений и недостаточной точности методов моделирования.
В статье предлагается RAP (Real-time Audio-driven Portrait animation) — новый подход, который объединяет высокую точность в контроле аудиосигнала и эффективность вычислений. Основные инновации RAP заключаются в использовании гибридной автопереносной механизма для тонкого аудио-управления и в статик-динамической модели, которая устраняет необходимость в прямом моделировании движения, а также позволяет избежать терминального временного расхождения.
Результаты экспериментов показали, что RAP достигает нового состояния искусства в реальном времени, сохраняя высокую визуальную фидлитей и синхронность аудио-визуального сигнала. Это делает RAP применимым для реального времени, что открывает новые возможности для приложений, таких как видеоконференц-связь и виртуальная реальность.
Annotation:
Audio-driven portrait animation aims to synthesize realistic and natural
talking head videos from an input audio signal and a single reference image.
While existing methods achieve high-quality results by leveraging
high-dimensional intermediate representations and explicitly modeling motion
dynamics, their computational complexity renders them unsuitable for real-time
deployment. Real-time inference imposes stringent latency and memory
constraints, often necessitating the use of highly compress...