Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model
2508.04472v1
cs.CV, cs.AI, cs.LG
2025-08-09
Авторы:
Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen
Резюме на русском
**Резюме**
В статье предлагается метод **ErasePro** для решения проблемы **Concept Erasure** в моделях текст-к-изображению. Задача Concept Erasure заключается в том, чтобы предотвратить модель от генерации контента, связанного с нежелательными семантическими понятиями (target concepts). Основные ограничения существующих методов заключаются в том, что они могут оставлять в мешанине неполностью удаленные понятия (недостаточная гармонизация) и приводят к потере качества генерации, сконцентрировав параметрические изменения в небольших глубинных слоях модели.
**ErasePro** предлагает решение этих проблем с помощью **строгого нулевого-резидуального ограничения** в оптимизационной задаче, обеспечивая полное удаление нежелательных понятий, и **прогрессивной стратегией обновления**, где изменения параметров происходят слой за слоем, начиная от глубинных до слоев более высокого уровня. Это позволяет снизить влияние на качество генерации и улучшить точность удаления. Эмпирические исследования подтвердили, что ErasePro эффективно решает задачу concept erasure во всех тестах (instance, art style и nudity erasure). Результаты показывают, что этот подход является более точным и сохраняет более высокое качество генерации.
Abstract
Concept Erasure, which aims to prevent pretrained text-to-image models from
generating content associated with semantic-harmful concepts (i.e., target
concepts), is getting increased attention. State-of-the-art methods formulate
this task as an optimization problem: they align all target concepts with
semantic-harmless anchor concepts, and apply closed-form solutions to update
the model accordingly. While these closed-form methods are efficient, we argue
that existing methods have two overlooked limitations: 1) They often result in
incomplete erasure due to "non-zero alignment residual", especially when text
prompts are relatively complex. 2) They may suffer from generation quality
degradation as they always concentrate parameter updates in a few deep layers.
To address these issues, we propose a novel closed-form method ErasePro: it is
designed for more complete concept erasure and better preserving overall
generative quality. Specifically, ErasePro first introduces a strict
zero-residual constraint into the optimization objective, ensuring perfect
alignment between target and anchor concept features and enabling more complete
erasure. Secondly, it employs a progressive, layer-wise update strategy that
gradually transfers target concept features to those of the anchor concept from
shallow to deep layers. As the depth increases, the required parameter changes
diminish, thereby reducing deviations in sensitive deep layers and preserving
generative quality. Empirical results across different concept erasure tasks
(including instance, art style, and nudity erasure) have demonstrated the
effectiveness of our ErasePro.
Ссылки и действия
Дополнительные ресурсы: