📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
2025-08-09Авторы:
Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu
Реализация моделей, основанных на распространенных методах генерирования речи и говорящих голов, возникает проблема с длительным временем вывода, что ограничивает их практическое применение. Мы предлагаем READ (Real-time and Efficient Asynchronous Diffusion) — первый рамфрейм для генерации говорящих голов, основанный на модели распределения, который достигает реального времени. Основная идея заключается в том, чтобы уменьшить количество токенов с помощью временной VAO, а затем использовать предварительно обученный Speech Autoencoder (SpeechAE) для создания кодов видео-информации, соответствующих видео-локальным кодам. Эти коды моделируются с помощью новой сети Audio-to-Video Diffusion Transformer (A2V-DiT) для эффективной генерации. Чтобы обеспечить консистентность и ускорить вывод в расширенной постановке, мы предлагаем асинхронный шейпер шума (ANS). Наши эксперименты показывают, что READ многократно превосходит состояние технологий, обеспечивая высокую скорость, не отказываясь от качества и метрической стабильности на протяжении долгого времени.
Annotation:
The introduction of diffusion models has brought significant advances to the
field of audio-driven talking head generation. However, the extremely slow
inference speed severely limits the practical implementation of diffusion-based
talking head generation models. In this study, we propose READ, the first
real-time diffusion-transformer-based talking head generation framework. Our
approach first learns a spatiotemporal highly compressed video latent space via
a temporal VAE, significantly reducin...
Авторы:
Fangyu Du, Taiqing Li, Ziwei Zhang, Qian Qiao, Tan Yu, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu
Аудио-синхронизированная портретная анимация является важной задачей, связанной с генерацией реалистичных и синхронных видеопортретов, активируемых аудиосигналом. Однако существующие решения сталкиваются с трудностями в реализации действительно реального времени (real-time), возникающими из-за высокой сложности вычислений и недостаточной точности методов моделирования.
В статье предлагается RAP (Real-time Audio-driven Portrait animation) — новый подход, который объединяет высокую точность в контроле аудиосигнала и эффективность вычислений. Основные инновации RAP заключаются в использовании гибридной автопереносной механизма для тонкого аудио-управления и в статик-динамической модели, которая устраняет необходимость в прямом моделировании движения, а также позволяет избежать терминального временного расхождения.
Результаты экспериментов показали, что RAP достигает нового состояния искусства в реальном времени, сохраняя высокую визуальную фидлитей и синхронность аудио-визуального сигнала. Это делает RAP применимым для реального времени, что открывает новые возможности для приложений, таких как видеоконференц-связь и виртуальная реальность.
Annotation:
Audio-driven portrait animation aims to synthesize realistic and natural
talking head videos from an input audio signal and a single reference image.
While existing methods achieve high-quality results by leveraging
high-dimensional intermediate representations and explicitly modeling motion
dynamics, their computational complexity renders them unsuitable for real-time
deployment. Real-time inference imposes stringent latency and memory
constraints, often necessitating the use of highly compress...
Авторы:
Farah Wahida, M. A. P. Chamikara, Yashothara Shanmugarasa, Mohan Baruwal Chhetri, Thilina Ranbaduge, Ibrahim Khalil
Объективная система распознавания лиц на основе глубоких нейронных сетей требует безопасности и достоверности данных. Атаки типа "ловушка" могут подрывать эти системы, внедряя невидимые триггеры в обучающие изображения, что приведет к неправильному распознаванию при аутентификации. Большинство существующих методов защиты против таких атак страдают от неточностей в выявлении зараженных изображений или ухудшении точности распознавания чистых данных. Мы предлагаем новую стратегию TrueBiometric, которая определяет зараженные изображения с помощью механизма опроса, использующего несколько современных языковых-визуальных моделей. Затем, используя целенаправленное добавление шума, эти изображения восстанавливаются без потери качества работы с чистыми данными. Наши эмпирические исследования показали, что TrueBiometric обеспечивает 100% точность в выявлении и исправлении зараженных изображений, демонстрируя превосходство перед альтернативными подходами в области безопасности лицевых систем распознавания.
Annotation:
Biometric systems, such as face recognition systems powered by deep neural
networks (DNNs), rely on large and highly sensitive datasets. Backdoor attacks
can subvert these systems by manipulating the training process. By inserting a
small trigger, such as a sticker, make-up, or patterned mask, into a few
training images, an adversary can later present the same trigger during
authentication to be falsely recognized as another individual, thereby gaining
unauthorized access. Existing defense mecha...
Показано 11 -
13
из 13 записей