UnGuide: Learning to Forget with LoRA-Guided Diffusion Models

2508.05755v1 cs.CV, cs.AI 2025-08-12
Авторы:

Agnieszka Polowczyk, Alicja Polowczyk, Dawid Malarz, Artur Kasymov, Marcin Mazur, Jacek Tabor, Przemysław Spurek

Резюме на русском

## Контекст В последние годы, большие текстово-изображения диффузионные модели получили широкое распространение, включая такие приложения, как Stable Diffusion. Однако эти модели также вызывают значительные вопросы, в частности, возможность их нежелательного применения для создания вредоносного или неточного контента. Это вызывает необходимость в разработке методов машинного "учения забывать", то есть удалять конкретные понятия или знания из предобученных моделей без существенного повреждения их общей производительности. Одним из подходов является Low-Rank Adaptation (LoRA), которая позволяет эффективно настраивать модели для определенных задач удаления. Тем не менее, LoRA часто неточно удаляет ненужные концепции, что приводит к потере фидерности и реализма изображений. Для решения этого проблемы предлагается UnGuide — новый подход, который использует UnGuidance, динамическую механизм, основанную на Classifier-Free Guidance (CFG), для точного управления процессом удаления. ## Метод UnGuide включает в себя два основных компонента: LoRA adapter и UnGuidance. LoRA adapter применяется для локализованного изменения весов модели, чтобы удалить конкретные понятия. UnGuidance, в свою очередь, динамически регулирует процесс диффузии с помощью Classifier-Free Guidance (CFG), который определяет, какой компонент (LoRA или базая модель) будет основным в сгенерированном изображении. Это регулирование основано на оценке стабильности начальных этапов диффузионного процесса. Если процесс удаления нужного понятия достаточно стабилен, то LoRA будет преобладать. В противном случае, базовая модель будет приводить к генерации более фидерного и реалистичного изображения, сохраняя фидерность и качество. ## Результаты На ряде экспериментов было продемонстрировано, что UnGuide эффективно удаляет целевые понятия из текстово-изображений диффузионных моделей, сохраняя высокую фидерность и реалистичность изображений. Он показывает лучшую производительность по сравнению с другими методами LoRA в задачах удаления объектов и контента. Кроме того, UnGuide позволяет значительно снизить потери фидерности, которые характерны для LoRA, когда она применяется к диффузионным моделям. Эксперименты проводились на стандартных датасетах, подтверждающих высокую эффективность метода. ## Значимость UnGuide может быть применен в различных областях, включая защиту от нежелательного контента, удаление личных данных, а также в области моральных и этических вопросов, связанных с использованием AI. Одним из основных преимуществ является высокая точность удаления целевого контента без существенных потерь в качестве изображений. В будущем, UnGuide может быть расширен для работы с другими типами моделей, такими как

Abstract

Recent advances in large-scale text-to-image diffusion models have heightened concerns about their potential misuse, especially in generating harmful or misleading content. This underscores the urgent need for effective machine unlearning, i.e., removing specific knowledge or concepts from pretrained models without compromising overall performance. One possible approach is Low-Rank Adaptation (LoRA), which offers an efficient means to fine-tune models for targeted unlearning. However, LoRA often inadvertently alters unrelated content, leading to diminished image fidelity and realism. To address this limitation, we introduce UnGuide -- a novel approach which incorporates UnGuidance, a dynamic inference mechanism that leverages Classifier-Free Guidance (CFG) to exert precise control over the unlearning process. UnGuide modulates the guidance scale based on the stability of a few first steps of denoising processes, enabling selective unlearning by LoRA adapter. For prompts containing the erased concept, the LoRA module predominates and is counterbalanced by the base model; for unrelated prompts, the base model governs generation, preserving content fidelity. Empirical results demonstrate that UnGuide achieves controlled concept removal and retains the expressive power of diffusion models, outperforming existing LoRA-based methods in both object erasure and explicit content removal tasks.

Ссылки и действия