📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

2025-09-26

Авторы:

Tianle Lyu, Junchuan Zhao, Ye Wang

################################# ## Контекст ################################# Говорящее-лицо синтезирование на основе звука является важной задачей в области мультимедиа, применяясь в таких областях, как видеоконференцсвязь, игры и видеообработка. Достижения в этой области влияют на качество интерактивности и удобства взаимодействия с пользователем. Несмотря на значительные успехи, существуют значительные ограничения: многие подходы рассматривают речевые признаки как неделимое целое, не учитывая их тонкие роли в воздействии на различные движения лица. Также, модели недостаточно оценивают важность моделирования ключевых кадров с высокой динамикой. Данный подход сталкивается со значительными трудностями в создании реалистичных и естественных анимированных лиц, что приводит к неестественным движениям и неточностям в синхронизации губ. ################################# ## Метод ################################# KSDiff предлагает решение для этих проблем с помощью Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Фреймворк включает в себя два ключевых модуля: 1. **Dual-Path Speech Encoder (DPSE):** Он разделяет речевые признаки на две части: одна отвечает за выражение, а другая — за движения головы. 2. **Keyframe Establishment Learning (KEL):** Этот модуль определяет ключевые кадры, характеризующиеся высокой динамикой. Интегрированный Dual-Path Motion Generator синтезирует согласованные и реалистичные движения лица, сочетая эти компоненты. Эта архитектура обеспечивает тонкую настройку синтезированных движений, учитывая как выражение, так и мотивные движения головы. ################################# ## Результаты ################################# Исследования проводились на двух наборах данных: HDTF и VoxCeleb. Метрики, такие как lip-sync accuracy и head-pose naturalness, показали выигрыш KSDiff перед соревнованиями. Эксперименты продемонстрировали, что KSDiff способен генерировать лица с точным губным синхронизмом и естественным движением головы. Также, модель превосходит конкурентов в создании реалистичных движений, даже при трудных условиях, таких как сильная акцентуация речи или сильные динамические изменения. ################################# ## Значимость ################################# Предложенная модель находит применение в различных областях, включая видеоконференцсвязь, игровые приложения и синтез речевого анализа. Она представляет собой значительный шаг вперед в создании говорящих лиц, улучшая естественность и точность моделирования. Выгоды KSDiff заключаются в более точной синхронизации губ, естественности движений головы и высокой степени детализации во взаимодействии с речью. Эти достижения открывают пути к более плавным и интерактивным взаимодействиям в мультимедийных приложениях. ################################# ## Выводы ################################# Предложенная модель KSDiff доказала свою эффективность в создании говорящих лиц, использу

Annotation:

Audio-driven facial animation has made significant progress in multimedia applications, with diffusion models showing strong potential for talking-face synthesis. However, most existing works treat speech features as a monolithic representation and fail to capture their fine-grained roles in driving different facial motions, while also overlooking the importance of modeling keyframes with intense dynamics. To address these limitations, we propose KSDiff, a Keyframe-Augmented Speech-Aware Dual-Pa...

ID: 2509.20128v1 cs.GR, cs.AI, cs.CV, cs.MM

arXiv PDF

📄 Zero-Shot Visual Deepfake Detection: Can AI Predict and Prevent Fake Content Before It's Created?

2025-09-25

Авторы:

Ayan Sar, Sampurna Roy, Tanupriya Choudhury, Ajith Abraham

#### Контекст Глубокоподдельные (deepfake) технологии, основанные на генеритивных противоположных сетях (GANs) и диффузионных моделях, значительно улучшились в последние годы, что привело к угрожающим последствиям для цифровой безопасности, интегритета масс медиа и доверия обществу. Данное исследование фокусируется на исследовании нулевого-отзывного (zero-shot) определения глубокоподдельных контентов — метода, который позволяет выявлять поддельный контент даже при недоступности предварительного знакомства с конкретной моделью глубокоподдельности. Рассматриваются самообучающиеся технологии, классификаторы на базе трансформеров, анализ отпечатков генеритивных моделей и методы мета-обучения, которые расширяют возможности адаптирования к быстро меняющейся среде глубокоподдельности. Более того, предлагаются профилактические методы, направленные на предотвращение создания глубокоподдельных материалов перед их появлением. Эти методы включают в себя использование адверсарных напряжений для подготовки моделей глубокоподдельности, цифровые водяные отметки для проверки подлинности содержимого, реальномоментальный мониторинг создания контента с помощью AI, а также рамформы контента на базе блокчейна. #### Метод Исследование основывается на многочисленных технических подходах. Для обнаружения глубокоподдельных материалов была применена самообучающаяся модель, обученная с использованием трансформеров, что позволило выявлять глубокоподдельные материалы на основе характеристик, которые делаются очевидными только в сравнении с аналогичными доверительными материалами. Для генеритивных моделей рассматривается анализ отпечатков, чтобы определять особенности, отличающиеся у разных моделей. Методы мета-обучения применялись для того, чтобы лучше адаптироваться к новым видам глубокоподдельности. Нейронные сети также использовались в системах для предотвращения создания глубокоподдельных материалов путем внедрения адверсарных напряжений, цифрового водяного знака и реальномоментальной системы мониторинга AI для обнаружения поддельного контента в реальном времени. #### Результаты В результате экспериментов, проведенных на большом количестве сэмплов глубокоподдельных и доверительных материалов, была доказана эффективность zero-shot классификации. Были проанализированы различные аспекты, включая устойчивость к адверсарным напряжениям, точность выявления новых типов поддельности, и выявлены некоторые ограничения в системах, такие как проблемы с масштабируемостью и наличие нестандартизованных бенчмарков.

Annotation:

Generative adversarial networks (GANs) and diffusion models have dramatically advanced deepfake technology, and its threats to digital security, media integrity, and public trust have increased rapidly. This research explored zero-shot deepfake detection, an emerging method even when the models have never seen a particular deepfake variation. In this work, we studied self-supervised learning, transformer-based zero-shot classifier, generative model fingerprinting, and meta-learning techniques th...

ID: 2509.18461v1 cs.GR, cs.AI, cs.CV, cs.MM

arXiv PDF

📄 StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation

2025-08-19

Авторы:

Seungmi Lee, Kwan Yun, Junyong Noh

#### Контекст В последние годы становится все более актуальным создание реалистичных 3D моделей лиц, которые могут генерироваться и контролироваться с помощью текстовых описаний. Этот подход используется в различных областях, включая анимацию, виртуальную реальность и генерирование искусственных изображений. Однако существуют значительные проблемы, связанные с надежностью генерирования, сохранением лицевых атрибутов и стилизацией. Недостаточное сохранение идентичности, изменение выражений и морфологические сдвиги в 3D моделях ограничивают применение таких технологий. Целью настоящего исследования является построение модели, которая не только стилизует 3D модели лиц, но и сохраняет ключевые лицевые особенности, такие как идентичность и выражение. #### Метод Предложенный подход, StyleMM, основан на текстово-движущем переводе изображений с использованием диффузионной модели. Исходными данными являются реалистичные 3D модели лиц, построенные на основе текстов, которые используются для генерирования 3D моделей с текстурами и стилями. Для поддержания лицевых атрибутов во время стилизации, вводится метод, который использует меш-деформационную сеть и генератор текстур лиц. Эти модели предварительно обучены на больших данных реальных лиц, что позволяет их быстро адаптировать к новым стилям. Для обеспечения сохранения выражений и аналитической структуры во время трансформации вводятся специальные методы разметки и алгоритмы аргументации, которые уменьшают нежелательные изменения. #### Результаты Эксперименты проводились на трёх наборах данных, включая реальные лица и синтетически сгенерированные изображения. Метод StyleMM был сравнен с двумя современными подходами в области стилизации 3D моделей. Результаты показали, что StyleMM превосходит конкуренты в плане разнообразия идентичности и стилизации. Также было показано, что модель может сохранять лицевые атрибуты во время стилизации и эффективно контролировать глубину стилизации. Таким образом, StyleMM показал себя как метод, сочетающий высокую стилизационную гибкость и надежность в сохранении лицевых особенностей. #### Значимость Предложенный подход может быть применен в различных областях, включая виртуальную реальность, игровые индустрии, анимацию и генерирование искусственных лиц. Основное преимущество StyleMM заключается в его способности сохранять лицевые атрибуты во время стилизации, что отсутствует в других подходах. Это делает технологию привлекательной для сценариев, где важно сохранение идентичности и выражений. Кроме то

Annotation:

We introduce StyleMM, a novel framework that can construct a stylized 3D Morphable Model (3DMM) based on user-defined text descriptions specifying a target style. Building upon a pre-trained mesh deformation network and a texture generator for original 3DMM-based realistic human faces, our approach fine-tunes these models using stylized facial images generated via text-guided image-to-image (i2i) translation with a diffusion model, which serve as stylization targets for the rendered mesh. To pre...

ID: 2508.11203v1 cs.GR, cs.AI, cs.CV, cs.MM, 51-04, I.3.8; I.4.9

arXiv PDF