📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Tianle Lyu, Junchuan Zhao, Ye Wang
#################################
## Контекст
#################################
Говорящее-лицо синтезирование на основе звука является важной задачей в области мультимедиа, применяясь в таких областях, как видеоконференцсвязь, игры и видеообработка. Достижения в этой области влияют на качество интерактивности и удобства взаимодействия с пользователем. Несмотря на значительные успехи, существуют значительные ограничения: многие подходы рассматривают речевые признаки как неделимое целое, не учитывая их тонкие роли в воздействии на различные движения лица. Также, модели недостаточно оценивают важность моделирования ключевых кадров с высокой динамикой. Данный подход сталкивается со значительными трудностями в создании реалистичных и естественных анимированных лиц, что приводит к неестественным движениям и неточностям в синхронизации губ.
#################################
## Метод
#################################
KSDiff предлагает решение для этих проблем с помощью Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Фреймворк включает в себя два ключевых модуля:
1. **Dual-Path Speech Encoder (DPSE):** Он разделяет речевые признаки на две части: одна отвечает за выражение, а другая — за движения головы.
2. **Keyframe Establishment Learning (KEL):** Этот модуль определяет ключевые кадры, характеризующиеся высокой динамикой.
Интегрированный Dual-Path Motion Generator синтезирует согласованные и реалистичные движения лица, сочетая эти компоненты. Эта архитектура обеспечивает тонкую настройку синтезированных движений, учитывая как выражение, так и мотивные движения головы.
#################################
## Результаты
#################################
Исследования проводились на двух наборах данных: HDTF и VoxCeleb. Метрики, такие как lip-sync accuracy и head-pose naturalness, показали выигрыш KSDiff перед соревнованиями. Эксперименты продемонстрировали, что KSDiff способен генерировать лица с точным губным синхронизмом и естественным движением головы. Также, модель превосходит конкурентов в создании реалистичных движений, даже при трудных условиях, таких как сильная акцентуация речи или сильные динамические изменения.
#################################
## Значимость
#################################
Предложенная модель находит применение в различных областях, включая видеоконференцсвязь, игровые приложения и синтез речевого анализа. Она представляет собой значительный шаг вперед в создании говорящих лиц, улучшая естественность и точность моделирования. Выгоды KSDiff заключаются в более точной синхронизации губ, естественности движений головы и высокой степени детализации во взаимодействии с речью. Эти достижения открывают пути к более плавным и интерактивным взаимодействиям в мультимедийных приложениях.
#################################
## Выводы
#################################
Предложенная модель KSDiff доказала свою эффективность в создании говорящих лиц, использу
Annotation:
Audio-driven facial animation has made significant progress in multimedia
applications, with diffusion models showing strong potential for talking-face
synthesis. However, most existing works treat speech features as a monolithic
representation and fail to capture their fine-grained roles in driving
different facial motions, while also overlooking the importance of modeling
keyframes with intense dynamics. To address these limitations, we propose
KSDiff, a Keyframe-Augmented Speech-Aware Dual-Pa...
📄 Zero-Shot Visual Deepfake Detection: Can AI Predict and Prevent Fake Content Before It's Created?
2025-09-25Авторы:
Ayan Sar, Sampurna Roy, Tanupriya Choudhury, Ajith Abraham
#### Контекст
Глубокоподдельные (deepfake) технологии, основанные на генеритивных противоположных сетях (GANs) и диффузионных моделях, значительно улучшились в последние годы, что привело к угрожающим последствиям для цифровой безопасности, интегритета масс медиа и доверия обществу. Данное исследование фокусируется на исследовании нулевого-отзывного (zero-shot) определения глубокоподдельных контентов — метода, который позволяет выявлять поддельный контент даже при недоступности предварительного знакомства с конкретной моделью глубокоподдельности. Рассматриваются самообучающиеся технологии, классификаторы на базе трансформеров, анализ отпечатков генеритивных моделей и методы мета-обучения, которые расширяют возможности адаптирования к быстро меняющейся среде глубокоподдельности. Более того, предлагаются профилактические методы, направленные на предотвращение создания глубокоподдельных материалов перед их появлением. Эти методы включают в себя использование адверсарных напряжений для подготовки моделей глубокоподдельности, цифровые водяные отметки для проверки подлинности содержимого, реальномоментальный мониторинг создания контента с помощью AI, а также рамформы контента на базе блокчейна.
#### Метод
Исследование основывается на многочисленных технических подходах. Для обнаружения глубокоподдельных материалов была применена самообучающаяся модель, обученная с использованием трансформеров, что позволило выявлять глубокоподдельные материалы на основе характеристик, которые делаются очевидными только в сравнении с аналогичными доверительными материалами. Для генеритивных моделей рассматривается анализ отпечатков, чтобы определять особенности, отличающиеся у разных моделей. Методы мета-обучения применялись для того, чтобы лучше адаптироваться к новым видам глубокоподдельности. Нейронные сети также использовались в системах для предотвращения создания глубокоподдельных материалов путем внедрения адверсарных напряжений, цифрового водяного знака и реальномоментальной системы мониторинга AI для обнаружения поддельного контента в реальном времени.
#### Результаты
В результате экспериментов, проведенных на большом количестве сэмплов глубокоподдельных и доверительных материалов, была доказана эффективность zero-shot классификации. Были проанализированы различные аспекты, включая устойчивость к адверсарным напряжениям, точность выявления новых типов поддельности, и выявлены некоторые ограничения в системах, такие как проблемы с масштабируемостью и наличие нестандартизованных бенчмарков.
Annotation:
Generative adversarial networks (GANs) and diffusion models have dramatically
advanced deepfake technology, and its threats to digital security, media
integrity, and public trust have increased rapidly. This research explored
zero-shot deepfake detection, an emerging method even when the models have
never seen a particular deepfake variation. In this work, we studied
self-supervised learning, transformer-based zero-shot classifier, generative
model fingerprinting, and meta-learning techniques th...
Авторы:
Seungmi Lee, Kwan Yun, Junyong Noh
#### Контекст
В последние годы становится все более актуальным создание реалистичных 3D моделей лиц, которые могут генерироваться и контролироваться с помощью текстовых описаний. Этот подход используется в различных областях, включая анимацию, виртуальную реальность и генерирование искусственных изображений. Однако существуют значительные проблемы, связанные с надежностью генерирования, сохранением лицевых атрибутов и стилизацией. Недостаточное сохранение идентичности, изменение выражений и морфологические сдвиги в 3D моделях ограничивают применение таких технологий. Целью настоящего исследования является построение модели, которая не только стилизует 3D модели лиц, но и сохраняет ключевые лицевые особенности, такие как идентичность и выражение.
#### Метод
Предложенный подход, StyleMM, основан на текстово-движущем переводе изображений с использованием диффузионной модели. Исходными данными являются реалистичные 3D модели лиц, построенные на основе текстов, которые используются для генерирования 3D моделей с текстурами и стилями. Для поддержания лицевых атрибутов во время стилизации, вводится метод, который использует меш-деформационную сеть и генератор текстур лиц. Эти модели предварительно обучены на больших данных реальных лиц, что позволяет их быстро адаптировать к новым стилям. Для обеспечения сохранения выражений и аналитической структуры во время трансформации вводятся специальные методы разметки и алгоритмы аргументации, которые уменьшают нежелательные изменения.
#### Результаты
Эксперименты проводились на трёх наборах данных, включая реальные лица и синтетически сгенерированные изображения. Метод StyleMM был сравнен с двумя современными подходами в области стилизации 3D моделей. Результаты показали, что StyleMM превосходит конкуренты в плане разнообразия идентичности и стилизации. Также было показано, что модель может сохранять лицевые атрибуты во время стилизации и эффективно контролировать глубину стилизации. Таким образом, StyleMM показал себя как метод, сочетающий высокую стилизационную гибкость и надежность в сохранении лицевых особенностей.
#### Значимость
Предложенный подход может быть применен в различных областях, включая виртуальную реальность, игровые индустрии, анимацию и генерирование искусственных лиц. Основное преимущество StyleMM заключается в его способности сохранять лицевые атрибуты во время стилизации, что отсутствует в других подходах. Это делает технологию привлекательной для сценариев, где важно сохранение идентичности и выражений. Кроме то
Annotation:
We introduce StyleMM, a novel framework that can construct a stylized 3D
Morphable Model (3DMM) based on user-defined text descriptions specifying a
target style. Building upon a pre-trained mesh deformation network and a
texture generator for original 3DMM-based realistic human faces, our approach
fine-tunes these models using stylized facial images generated via text-guided
image-to-image (i2i) translation with a diffusion model, which serve as
stylization targets for the rendered mesh. To pre...