UnGuide: Learning to Forget with LoRA-Guided Diffusion Models
2508.05755v1
cs.CV, cs.AI
2025-08-12
Авторы:
Agnieszka Polowczyk, Alicja Polowczyk, Dawid Malarz, Artur Kasymov, Marcin Mazur, Jacek Tabor, Przemysław Spurek
Резюме на русском
## Контекст
В последние годы, большие текстово-изображения диффузионные модели получили широкое распространение, включая такие приложения, как Stable Diffusion. Однако эти модели также вызывают значительные вопросы, в частности, возможность их нежелательного применения для создания вредоносного или неточного контента. Это вызывает необходимость в разработке методов машинного "учения забывать", то есть удалять конкретные понятия или знания из предобученных моделей без существенного повреждения их общей производительности. Одним из подходов является Low-Rank Adaptation (LoRA), которая позволяет эффективно настраивать модели для определенных задач удаления. Тем не менее, LoRA часто неточно удаляет ненужные концепции, что приводит к потере фидерности и реализма изображений. Для решения этого проблемы предлагается UnGuide — новый подход, который использует UnGuidance, динамическую механизм, основанную на Classifier-Free Guidance (CFG), для точного управления процессом удаления.
## Метод
UnGuide включает в себя два основных компонента: LoRA adapter и UnGuidance. LoRA adapter применяется для локализованного изменения весов модели, чтобы удалить конкретные понятия. UnGuidance, в свою очередь, динамически регулирует процесс диффузии с помощью Classifier-Free Guidance (CFG), который определяет, какой компонент (LoRA или базая модель) будет основным в сгенерированном изображении. Это регулирование основано на оценке стабильности начальных этапов диффузионного процесса. Если процесс удаления нужного понятия достаточно стабилен, то LoRA будет преобладать. В противном случае, базовая модель будет приводить к генерации более фидерного и реалистичного изображения, сохраняя фидерность и качество.
## Результаты
На ряде экспериментов было продемонстрировано, что UnGuide эффективно удаляет целевые понятия из текстово-изображений диффузионных моделей, сохраняя высокую фидерность и реалистичность изображений. Он показывает лучшую производительность по сравнению с другими методами LoRA в задачах удаления объектов и контента. Кроме того, UnGuide позволяет значительно снизить потери фидерности, которые характерны для LoRA, когда она применяется к диффузионным моделям. Эксперименты проводились на стандартных датасетах, подтверждающих высокую эффективность метода.
## Значимость
UnGuide может быть применен в различных областях, включая защиту от нежелательного контента, удаление личных данных, а также в области моральных и этических вопросов, связанных с использованием AI. Одним из основных преимуществ является высокая точность удаления целевого контента без существенных потерь в качестве изображений. В будущем, UnGuide может быть расширен для работы с другими типами моделей, такими как
Abstract
Recent advances in large-scale text-to-image diffusion models have heightened
concerns about their potential misuse, especially in generating harmful or
misleading content. This underscores the urgent need for effective machine
unlearning, i.e., removing specific knowledge or concepts from pretrained
models without compromising overall performance. One possible approach is
Low-Rank Adaptation (LoRA), which offers an efficient means to fine-tune models
for targeted unlearning. However, LoRA often inadvertently alters unrelated
content, leading to diminished image fidelity and realism. To address this
limitation, we introduce UnGuide -- a novel approach which incorporates
UnGuidance, a dynamic inference mechanism that leverages Classifier-Free
Guidance (CFG) to exert precise control over the unlearning process. UnGuide
modulates the guidance scale based on the stability of a few first steps of
denoising processes, enabling selective unlearning by LoRA adapter. For prompts
containing the erased concept, the LoRA module predominates and is
counterbalanced by the base model; for unrelated prompts, the base model
governs generation, preserving content fidelity. Empirical results demonstrate
that UnGuide achieves controlled concept removal and retains the expressive
power of diffusion models, outperforming existing LoRA-based methods in both
object erasure and explicit content removal tasks.
Ссылки и действия
Дополнительные ресурсы: