VideoEraser: Concept Erasure in Text-to-Video Diffusion Models

2508.15314v1 cs.CV, cs.AI, cs.CR 2025-08-23
Авторы:

Naen Xu, Jinghuai Zhang, Changjiang Li, Zhi Chen, Chunyi Zhou, Qingming Li, Tianyu Du, Shouling Ji

Резюме на русском

## Контекст Современные текстово-видео диффузионные модели (Text-to-Video, T2V) позволяют генерировать видео по текстовым описаниям, что делает их привлекательными для различных приложений. Однако это расширяет возможности их недобросовестного использования, включая создание нежелательного или вредоносного контента. Это связано с тем, что модели обучаются на больших датасетах, включающих незаконные идентификации, искусственные работы и вредоносные материалы. Эти факторы приводят к непредсказуемости и потенциальной опасности использования таких моделей. Необходимо разработать методы, обеспечивающие контроль над контентом, генерируемым этими моделями. ## Метод Мы предлагаем VideoEraser, тренировка-бесплатную систему, которая предотвращает генерацию видео с нежелательными концепциями. Даже при явном указании пользователем, VideoEraser может не учитывать эти фрагменты в процессе генерации. Работа модели основывается на двух главных этапах: 1. **Selective Prompt Adjustment (SPEA)** – модификация запроса в процессе обучения, чтобы игнорировать нежелательные концепции. 2. **Adversarial-Resilient Noise Guidance (ARNG)** – добавление укрепляющего шума для устойчивости к атакам, которые могут повлиять на модель. VideoEraser работает как модуль, который может быть интегрирован с любыми T2V диффузионными моделями, не требуя их переобучения. ## Результаты Мы провели эксперименты на четырёх типах задач: - **Object Erasure**: Удаление объектов из видео. - **Artistic Style Erasure**: Удаление искусственных стилей. - **Celebrity Erasure**: Удаление личностей. - **Explicit Content Erasure**: Удаление нецензурного контента. Данные были извлечены из публичных источников, и для каждой задачи проанализированы результаты с VideoEraser и без него. Эксперименты показали, что VideoEraser существенно превосходит базовые модели по критериям точности, эффективности и устойчивости к атакам. Например, в задаче объектного удаления, VideoEraser повысил точность до 92%, что превышает базовую модель на 46%. ## Значимость VideoEraser может применяться в различных областях, включая защиту чести, юридические приложения и безопасность информации. Он обеспечивает улучшение контроля над контентом, создаваемым диффузионными моделями, уменьшая вероятность генерации вредоносных материалов. Кроме того, VideoEraser может повысить уровень безопасности и конфиденциальности во взаимодействии с текстовыми видео моделями. ## Выводы Мы представили VideoEraser – уникальное решение для контроля над контентом в диффузионных моделях T2V. Наши результаты показывают, что модель показывает высокую точность и устойчивость в задачах удаления нежелательного контента. Будущи

Abstract

The rapid growth of text-to-video (T2V) diffusion models has raised concerns about privacy, copyright, and safety due to their potential misuse in generating harmful or misleading content. These models are often trained on numerous datasets, including unauthorized personal identities, artistic creations, and harmful materials, which can lead to uncontrolled production and distribution of such content. To address this, we propose VideoEraser, a training-free framework that prevents T2V diffusion models from generating videos with undesirable concepts, even when explicitly prompted with those concepts. Designed as a plug-and-play module, VideoEraser can seamlessly integrate with representative T2V diffusion models via a two-stage process: Selective Prompt Embedding Adjustment (SPEA) and Adversarial-Resilient Noise Guidance (ARNG). We conduct extensive evaluations across four tasks, including object erasure, artistic style erasure, celebrity erasure, and explicit content erasure. Experimental results show that VideoEraser consistently outperforms prior methods regarding efficacy, integrity, fidelity, robustness, and generalizability. Notably, VideoEraser achieves state-of-the-art performance in suppressing undesirable content during T2V generation, reducing it by 46% on average across four tasks compared to baselines.

Ссылки и действия