Side Effects of Erasing Concepts from Diffusion Models
2508.15124v1
cs.LG, cs.CV
2025-08-23
Авторы:
Shaswati Saha, Sourajit Saha, Manas Gaur, Tejas Gokhale
Резюме на русском
#### Контекст
Одной из основных проблем в области текст-на-изображение (T2I) генерирующих моделей является сохранение приватности, авторских прав и безопасности пользователей. Эти модели часто используются для генерирования реалистичных изображений по текстовым описаниям. Однако появились требования по управлению содержимым, которые стали причиной развития технологий, позволяющих исключать определенные "нежелательные" концепции из генерируемых изображений. Такие Concept Erasure Techniques (CETs), или технологии исключения концепций, предназначены для удаления ненадлежащих пользователю концепций из моделей. Однако пользователи могут попытаться обходить эти фильтры, используя различные способы, такие как синонимичные описания или связь между признаками. В этом исследовании мы рассмотрим мотивации и риски, связанные с CETs, а также оценим их эффективность и могут ли они быть обхождены.
#### Метод
В этом работе мы предлагаем Side Effect Evaluation (\see) — новый автоматизированный эвристический подход, который использует данные с хиерархическими и композиционными описаниями объектов и их признаков. Эта подходящая архитектура системы позволяет осуществлять анализ воздействия CETs на три ключевых аспекта: влияние на соседние концепции, обойти фильтр по цели и проникновение атрибутов. Данная оценка проводится с использованием конкретных экспериментов, в которых мы изучаем различные способы обхода CETs. Мы также используем различные технические характеристики, такие как метрики точности и разброса, для измерения эффективности и потенциальных сбоев в CETs.
#### Результаты
Наши эксперименты показали, что CETs могут быть легко обхождены с использованием связанных классов или подклассов целевых концепций. Мы также обнаружили, что CETs часто имеют нежелательные последствия, такие как увеличение внимания на нежелательных концепциях или разрушение их взаимосвязей. Наша оценка показала, что при удалении концепции могут возникать нежелательные эффекты, такие как значительное снижение качества остальных концепций. Мы также выявили, что CETs могут быть подвержены атакам, связанным с искажением генерируемых изображений.
#### Значимость
Полученные результаты имеют большое значение в широком диапазоне приложений, включая контроль содержимого, авторские права и безопасность. CETs могут быть применены для оптимизации генерируемых изображений, исключив нежелательные концепции и придав изображениям большую точность. Также, наша методика может быть использована для изучения идентификации и устранения ошибок в генерируемых моде
Abstract
Concerns about text-to-image (T2I) generative models infringing on privacy,
copyright, and safety have led to the development of Concept Erasure Techniques
(CETs).
The goal of an effective CET is to prohibit the generation of undesired
``target'' concepts specified by the user, while preserving the ability to
synthesize high-quality images of the remaining concepts.
In this work, we demonstrate that CETs can be easily circumvented and present
several side effects of concept erasure.
For a comprehensive measurement of the robustness of CETs, we present Side
Effect Evaluation (\see), an evaluation benchmark that consists of hierarchical
and compositional prompts that describe objects and their attributes.
This dataset and our automated evaluation pipeline quantify side effects of
CETs across three aspects: impact on neighboring concepts, evasion of targets,
and attribute leakage.
Our experiments reveal that CETs can be circumvented by using
superclass-subclass hierarchy and semantically similar prompts, such as
compositional variants of the target. We show that CETs suffer from attribute
leakage and counterintuitive phenomena of attention concentration or dispersal.
We release our dataset, code, and evaluation tools to aid future work on
robust concept erasure.
Ссылки и действия
Дополнительные ресурсы: