Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model

2508.04472v1 cs.CV, cs.AI, cs.LG 2025-08-09
Авторы:

Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen

Резюме на русском

**Резюме** В статье предлагается метод **ErasePro** для решения проблемы **Concept Erasure** в моделях текст-к-изображению. Задача Concept Erasure заключается в том, чтобы предотвратить модель от генерации контента, связанного с нежелательными семантическими понятиями (target concepts). Основные ограничения существующих методов заключаются в том, что они могут оставлять в мешанине неполностью удаленные понятия (недостаточная гармонизация) и приводят к потере качества генерации, сконцентрировав параметрические изменения в небольших глубинных слоях модели. **ErasePro** предлагает решение этих проблем с помощью **строгого нулевого-резидуального ограничения** в оптимизационной задаче, обеспечивая полное удаление нежелательных понятий, и **прогрессивной стратегией обновления**, где изменения параметров происходят слой за слоем, начиная от глубинных до слоев более высокого уровня. Это позволяет снизить влияние на качество генерации и улучшить точность удаления. Эмпирические исследования подтвердили, что ErasePro эффективно решает задачу concept erasure во всех тестах (instance, art style и nudity erasure). Результаты показывают, что этот подход является более точным и сохраняет более высокое качество генерации.

Abstract

Concept Erasure, which aims to prevent pretrained text-to-image models from generating content associated with semantic-harmful concepts (i.e., target concepts), is getting increased attention. State-of-the-art methods formulate this task as an optimization problem: they align all target concepts with semantic-harmless anchor concepts, and apply closed-form solutions to update the model accordingly. While these closed-form methods are efficient, we argue that existing methods have two overlooked limitations: 1) They often result in incomplete erasure due to "non-zero alignment residual", especially when text prompts are relatively complex. 2) They may suffer from generation quality degradation as they always concentrate parameter updates in a few deep layers. To address these issues, we propose a novel closed-form method ErasePro: it is designed for more complete concept erasure and better preserving overall generative quality. Specifically, ErasePro first introduces a strict zero-residual constraint into the optimization objective, ensuring perfect alignment between target and anchor concept features and enabling more complete erasure. Secondly, it employs a progressive, layer-wise update strategy that gradually transfers target concept features to those of the anchor concept from shallow to deep layers. As the depth increases, the required parameter changes diminish, thereby reducing deviations in sensitive deep layers and preserving generative quality. Empirical results across different concept erasure tasks (including instance, art style, and nudity erasure) have demonstrated the effectiveness of our ErasePro.

Ссылки и действия