📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu

Реализация моделей, основанных на распространенных методах генерирования речи и говорящих голов, возникает проблема с длительным временем вывода, что ограничивает их практическое применение. Мы предлагаем READ (Real-time and Efficient Asynchronous Diffusion) — первый рамфрейм для генерации говорящих голов, основанный на модели распределения, который достигает реального времени. Основная идея заключается в том, чтобы уменьшить количество токенов с помощью временной VAO, а затем использовать предварительно обученный Speech Autoencoder (SpeechAE) для создания кодов видео-информации, соответствующих видео-локальным кодам. Эти коды моделируются с помощью новой сети Audio-to-Video Diffusion Transformer (A2V-DiT) для эффективной генерации. Чтобы обеспечить консистентность и ускорить вывод в расширенной постановке, мы предлагаем асинхронный шейпер шума (ANS). Наши эксперименты показывают, что READ многократно превосходит состояние технологий, обеспечивая высокую скорость, не отказываясь от качества и метрической стабильности на протяжении долгого времени.
Annotation:
The introduction of diffusion models has brought significant advances to the field of audio-driven talking head generation. However, the extremely slow inference speed severely limits the practical implementation of diffusion-based talking head generation models. In this study, we propose READ, the first real-time diffusion-transformer-based talking head generation framework. Our approach first learns a spatiotemporal highly compressed video latent space via a temporal VAE, significantly reducin...
ID: 2508.03457v2 cs.GR, cs.CV, cs.SD, eess.AS
Авторы:

Fangyu Du, Taiqing Li, Ziwei Zhang, Qian Qiao, Tan Yu, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu

Аудио-синхронизированная портретная анимация является важной задачей, связанной с генерацией реалистичных и синхронных видеопортретов, активируемых аудиосигналом. Однако существующие решения сталкиваются с трудностями в реализации действительно реального времени (real-time), возникающими из-за высокой сложности вычислений и недостаточной точности методов моделирования. В статье предлагается RAP (Real-time Audio-driven Portrait animation) — новый подход, который объединяет высокую точность в контроле аудиосигнала и эффективность вычислений. Основные инновации RAP заключаются в использовании гибридной автопереносной механизма для тонкого аудио-управления и в статик-динамической модели, которая устраняет необходимость в прямом моделировании движения, а также позволяет избежать терминального временного расхождения. Результаты экспериментов показали, что RAP достигает нового состояния искусства в реальном времени, сохраняя высокую визуальную фидлитей и синхронность аудио-визуального сигнала. Это делает RAP применимым для реального времени, что открывает новые возможности для приложений, таких как видеоконференц-связь и виртуальная реальность.
Annotation:
Audio-driven portrait animation aims to synthesize realistic and natural talking head videos from an input audio signal and a single reference image. While existing methods achieve high-quality results by leveraging high-dimensional intermediate representations and explicitly modeling motion dynamics, their computational complexity renders them unsuitable for real-time deployment. Real-time inference imposes stringent latency and memory constraints, often necessitating the use of highly compress...
ID: 2508.05115v1 cs.GR, cs.CV, cs.SD, eess.AS