📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation

2025-08-09

Авторы:

Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu

Реализация моделей, основанных на распространенных методах генерирования речи и говорящих голов, возникает проблема с длительным временем вывода, что ограничивает их практическое применение. Мы предлагаем READ (Real-time and Efficient Asynchronous Diffusion) — первый рамфрейм для генерации говорящих голов, основанный на модели распределения, который достигает реального времени. Основная идея заключается в том, чтобы уменьшить количество токенов с помощью временной VAO, а затем использовать предварительно обученный Speech Autoencoder (SpeechAE) для создания кодов видео-информации, соответствующих видео-локальным кодам. Эти коды моделируются с помощью новой сети Audio-to-Video Diffusion Transformer (A2V-DiT) для эффективной генерации. Чтобы обеспечить консистентность и ускорить вывод в расширенной постановке, мы предлагаем асинхронный шейпер шума (ANS). Наши эксперименты показывают, что READ многократно превосходит состояние технологий, обеспечивая высокую скорость, не отказываясь от качества и метрической стабильности на протяжении долгого времени.

Annotation:

The introduction of diffusion models has brought significant advances to the field of audio-driven talking head generation. However, the extremely slow inference speed severely limits the practical implementation of diffusion-based talking head generation models. In this study, we propose READ, the first real-time diffusion-transformer-based talking head generation framework. Our approach first learns a spatiotemporal highly compressed video latent space via a temporal VAE, significantly reducin...

ID: 2508.03457v2 cs.GR, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

2025-08-09

Авторы:

Fangyu Du, Taiqing Li, Ziwei Zhang, Qian Qiao, Tan Yu, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu

Аудио-синхронизированная портретная анимация является важной задачей, связанной с генерацией реалистичных и синхронных видеопортретов, активируемых аудиосигналом. Однако существующие решения сталкиваются с трудностями в реализации действительно реального времени (real-time), возникающими из-за высокой сложности вычислений и недостаточной точности методов моделирования. В статье предлагается RAP (Real-time Audio-driven Portrait animation) — новый подход, который объединяет высокую точность в контроле аудиосигнала и эффективность вычислений. Основные инновации RAP заключаются в использовании гибридной автопереносной механизма для тонкого аудио-управления и в статик-динамической модели, которая устраняет необходимость в прямом моделировании движения, а также позволяет избежать терминального временного расхождения. Результаты экспериментов показали, что RAP достигает нового состояния искусства в реальном времени, сохраняя высокую визуальную фидлитей и синхронность аудио-визуального сигнала. Это делает RAP применимым для реального времени, что открывает новые возможности для приложений, таких как видеоконференц-связь и виртуальная реальность.

Annotation:

Audio-driven portrait animation aims to synthesize realistic and natural talking head videos from an input audio signal and a single reference image. While existing methods achieve high-quality results by leveraging high-dimensional intermediate representations and explicitly modeling motion dynamics, their computational complexity renders them unsuitable for real-time deployment. Real-time inference imposes stringent latency and memory constraints, often necessitating the use of highly compress...

ID: 2508.05115v1 cs.GR, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 From Detection to Correction: Backdoor-Resilient Face Recognition via Vision-Language Trigger Detection and Noise-Based Neutralization

2025-08-09

Авторы:

Farah Wahida, M. A. P. Chamikara, Yashothara Shanmugarasa, Mohan Baruwal Chhetri, Thilina Ranbaduge, Ibrahim Khalil

Объективная система распознавания лиц на основе глубоких нейронных сетей требует безопасности и достоверности данных. Атаки типа "ловушка" могут подрывать эти системы, внедряя невидимые триггеры в обучающие изображения, что приведет к неправильному распознаванию при аутентификации. Большинство существующих методов защиты против таких атак страдают от неточностей в выявлении зараженных изображений или ухудшении точности распознавания чистых данных. Мы предлагаем новую стратегию TrueBiometric, которая определяет зараженные изображения с помощью механизма опроса, использующего несколько современных языковых-визуальных моделей. Затем, используя целенаправленное добавление шума, эти изображения восстанавливаются без потери качества работы с чистыми данными. Наши эмпирические исследования показали, что TrueBiometric обеспечивает 100% точность в выявлении и исправлении зараженных изображений, демонстрируя превосходство перед альтернативными подходами в области безопасности лицевых систем распознавания.

Annotation:

Biometric systems, such as face recognition systems powered by deep neural networks (DNNs), rely on large and highly sensitive datasets. Backdoor attacks can subvert these systems by manipulating the training process. By inserting a small trigger, such as a sticker, make-up, or patterned mask, into a few training images, an adversary can later present the same trigger during authentication to be falsely recognized as another individual, thereby gaining unauthorized access. Existing defense mecha...

ID: 2508.05409v1 cs.CV, cs.SD, eess.AS

arXiv PDF

Показано 11 - 13 из 13 записей