Side Effects of Erasing Concepts from Diffusion Models

2508.15124v1 cs.LG, cs.CV 2025-08-23

Авторы:

Shaswati Saha, Sourajit Saha, Manas Gaur, Tejas Gokhale

Резюме на русском

#### Контекст Одной из основных проблем в области текст-на-изображение (T2I) генерирующих моделей является сохранение приватности, авторских прав и безопасности пользователей. Эти модели часто используются для генерирования реалистичных изображений по текстовым описаниям. Однако появились требования по управлению содержимым, которые стали причиной развития технологий, позволяющих исключать определенные "нежелательные" концепции из генерируемых изображений. Такие Concept Erasure Techniques (CETs), или технологии исключения концепций, предназначены для удаления ненадлежащих пользователю концепций из моделей. Однако пользователи могут попытаться обходить эти фильтры, используя различные способы, такие как синонимичные описания или связь между признаками. В этом исследовании мы рассмотрим мотивации и риски, связанные с CETs, а также оценим их эффективность и могут ли они быть обхождены. #### Метод В этом работе мы предлагаем Side Effect Evaluation (\see) — новый автоматизированный эвристический подход, который использует данные с хиерархическими и композиционными описаниями объектов и их признаков. Эта подходящая архитектура системы позволяет осуществлять анализ воздействия CETs на три ключевых аспекта: влияние на соседние концепции, обойти фильтр по цели и проникновение атрибутов. Данная оценка проводится с использованием конкретных экспериментов, в которых мы изучаем различные способы обхода CETs. Мы также используем различные технические характеристики, такие как метрики точности и разброса, для измерения эффективности и потенциальных сбоев в CETs. #### Результаты Наши эксперименты показали, что CETs могут быть легко обхождены с использованием связанных классов или подклассов целевых концепций. Мы также обнаружили, что CETs часто имеют нежелательные последствия, такие как увеличение внимания на нежелательных концепциях или разрушение их взаимосвязей. Наша оценка показала, что при удалении концепции могут возникать нежелательные эффекты, такие как значительное снижение качества остальных концепций. Мы также выявили, что CETs могут быть подвержены атакам, связанным с искажением генерируемых изображений. #### Значимость Полученные результаты имеют большое значение в широком диапазоне приложений, включая контроль содержимого, авторские права и безопасность. CETs могут быть применены для оптимизации генерируемых изображений, исключив нежелательные концепции и придав изображениям большую точность. Также, наша методика может быть использована для изучения идентификации и устранения ошибок в генерируемых моде

Abstract

Concerns about text-to-image (T2I) generative models infringing on privacy, copyright, and safety have led to the development of Concept Erasure Techniques (CETs). The goal of an effective CET is to prohibit the generation of undesired ``target'' concepts specified by the user, while preserving the ability to synthesize high-quality images of the remaining concepts. In this work, we demonstrate that CETs can be easily circumvented and present several side effects of concept erasure. For a comprehensive measurement of the robustness of CETs, we present Side Effect Evaluation (\see), an evaluation benchmark that consists of hierarchical and compositional prompts that describe objects and their attributes. This dataset and our automated evaluation pipeline quantify side effects of CETs across three aspects: impact on neighboring concepts, evasion of targets, and attribute leakage. Our experiments reveal that CETs can be circumvented by using superclass-subclass hierarchy and semantically similar prompts, such as compositional variants of the target. We show that CETs suffer from attribute leakage and counterintuitive phenomena of attention concentration or dispersal. We release our dataset, code, and evaluation tools to aid future work on robust concept erasure.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Side Effects of Erasing Concepts from Diffusion Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Studying Various Activation Functions and Non-IID Data for Machine Learning Mode...

Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative ...

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspecti...

Value Gradient Guidance for Flow Matching Alignment

Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe

Навигация