DyME: Dynamic Multi-Concept Erasure in Diffusion Models with Bi-Level Orthogonal LoRA Adaptation

2509.21433v1 cs.CV, cs.AI, cs.LG 2025-09-30

Авторы:

Jiaqi Liu, Lan Zhang, Xiaoyong Yuan

Резюме на русском

## Контекст Text-to-image diffusion models (DMs) стали одной из самых популярных технологий в области генерации изображений. Они позволяют генерировать изображения на основе текстовых описаний. Однако эти модели часто генерируют изображения, которые включают в себя защищенные либо копирайт-защищенные визуальные элементы и стили. Это приводит к риску предъявления юридических и этических претензий. Чтобы устранить эту проблему, разработаны методы "concept erasure", которые представляют собой методы, нацеленные на выборочное удаление таких элементов. Однако существующие методы не учитывают ситуации, когда требуется удалить несколько концепций, а точнее, когда эти концепции могут быть взаимоисключающими. Это делает их непригодными для практического применения. Наше исследование направлено на разработку метода, который не только удовлетворит потребности в удалении нескольких концепций, но и позволит динамически адаптироваться к разным условиям инференса. ## Метод Мы предлагаем DyME (Dynamic Multi-Concept Erasure) – динамический метод, который удаляет несколько концепций в зависимости от требований каждого отдельного запроса. DyME работает на основе механизма LoRA (Low-Rank Adaptation), который позволяет построить концепт-специфические адаптеры. Однако проблема с такими адаптерами заключается в том, что при удалении многих концепций могут возникнуть конфликты, которые приведут к деградации фидабека и ухудшению качества изображения. Для решения этой проблемы, мы ввели би-уровневую ортогональность (bi-level orthogonality) на уровне особенностей и параметров. Это позволяет гарантировать, что каждый адаптер будет работать независимо от других адаптеров, даже если они связаны семантически. Мы также ввели новую структуру бенчмарка ErasureBench-H, которая позволяет оценивать эффективность удаления в разных уровнях семантической гранулярности. ## Результаты Мы провели эксперименты на нашем новом бенчмарке ErasureBench-H, а также на стандартных датасетах, таких как CIFAR-100 и Imagenette. Наши результаты показали, что DyME показывает значительно лучшие результаты по сравнению с состоянием искусства в многоконцепциональном удалении изображений. Мы также показали, что DyME достигает высокой точности в удалении концепций, при этом оставляя минимальные последствия в нецелевых областях. Это доказывает, что наш метод может динамически адаптироваться к разным запросам инференса, что является ключевым преимуществом перед существующими подходами. ## Значимость DyME может быть применен в различных сферах, где требуется удаление защищенных или копирайт-защищенных элементов. Например, это

Abstract

Text-to-image diffusion models (DMs) inadvertently reproduce copyrighted styles and protected visual concepts, raising legal and ethical concerns. Concept erasure has emerged as a safeguard, aiming to selectively suppress such concepts through fine-tuning. However, existing methods do not scale to practical settings where providers must erase multiple and possibly conflicting concepts. The core bottleneck is their reliance on static erasure: a single checkpoint is fine-tuned to remove all target concepts, regardless of the actual erasure needs at inference. This rigid design mismatches real-world usage, where requests vary per generation, leading to degraded erasure success and reduced fidelity for non-target content. We propose DyME, an on-demand erasure framework that trains lightweight, concept-specific LoRA adapters and dynamically composes only those needed at inference. This modular design enables flexible multi-concept erasure, but naive composition causes interference among adapters, especially when many or semantically related concepts are suppressed. To overcome this, we introduce bi-level orthogonality constraints at both the feature and parameter levels, disentangling representation shifts and enforcing orthogonal adapter subspaces. We further develop ErasureBench-H, a new hierarchical benchmark with brand-series-character structure, enabling principled evaluation across semantic granularities and erasure set sizes. Experiments on ErasureBench-H and standard datasets (e.g., CIFAR-100, Imagenette) demonstrate that DyME consistently outperforms state-of-the-art baselines, achieving higher multi-concept erasure fidelity with minimal collateral degradation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DyME: Dynamic Multi-Concept Erasure in Diffusion Models with Bi-Level Orthogonal LoRA Adaptation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация