DyME: Dynamic Multi-Concept Erasure in Diffusion Models with Bi-Level Orthogonal LoRA Adaptation
2509.21433v1
cs.CV, cs.AI, cs.LG
2025-09-30
Авторы:
Jiaqi Liu, Lan Zhang, Xiaoyong Yuan
Резюме на русском
## Контекст
Text-to-image diffusion models (DMs) стали одной из самых популярных технологий в области генерации изображений. Они позволяют генерировать изображения на основе текстовых описаний. Однако эти модели часто генерируют изображения, которые включают в себя защищенные либо копирайт-защищенные визуальные элементы и стили. Это приводит к риску предъявления юридических и этических претензий. Чтобы устранить эту проблему, разработаны методы "concept erasure", которые представляют собой методы, нацеленные на выборочное удаление таких элементов. Однако существующие методы не учитывают ситуации, когда требуется удалить несколько концепций, а точнее, когда эти концепции могут быть взаимоисключающими. Это делает их непригодными для практического применения. Наше исследование направлено на разработку метода, который не только удовлетворит потребности в удалении нескольких концепций, но и позволит динамически адаптироваться к разным условиям инференса.
## Метод
Мы предлагаем DyME (Dynamic Multi-Concept Erasure) – динамический метод, который удаляет несколько концепций в зависимости от требований каждого отдельного запроса. DyME работает на основе механизма LoRA (Low-Rank Adaptation), который позволяет построить концепт-специфические адаптеры. Однако проблема с такими адаптерами заключается в том, что при удалении многих концепций могут возникнуть конфликты, которые приведут к деградации фидабека и ухудшению качества изображения. Для решения этой проблемы, мы ввели би-уровневую ортогональность (bi-level orthogonality) на уровне особенностей и параметров. Это позволяет гарантировать, что каждый адаптер будет работать независимо от других адаптеров, даже если они связаны семантически. Мы также ввели новую структуру бенчмарка ErasureBench-H, которая позволяет оценивать эффективность удаления в разных уровнях семантической гранулярности.
## Результаты
Мы провели эксперименты на нашем новом бенчмарке ErasureBench-H, а также на стандартных датасетах, таких как CIFAR-100 и Imagenette. Наши результаты показали, что DyME показывает значительно лучшие результаты по сравнению с состоянием искусства в многоконцепциональном удалении изображений. Мы также показали, что DyME достигает высокой точности в удалении концепций, при этом оставляя минимальные последствия в нецелевых областях. Это доказывает, что наш метод может динамически адаптироваться к разным запросам инференса, что является ключевым преимуществом перед существующими подходами.
## Значимость
DyME может быть применен в различных сферах, где требуется удаление защищенных или копирайт-защищенных элементов. Например, это
Abstract
Text-to-image diffusion models (DMs) inadvertently reproduce copyrighted
styles and protected visual concepts, raising legal and ethical concerns.
Concept erasure has emerged as a safeguard, aiming to selectively suppress such
concepts through fine-tuning. However, existing methods do not scale to
practical settings where providers must erase multiple and possibly conflicting
concepts. The core bottleneck is their reliance on static erasure: a single
checkpoint is fine-tuned to remove all target concepts, regardless of the
actual erasure needs at inference. This rigid design mismatches real-world
usage, where requests vary per generation, leading to degraded erasure success
and reduced fidelity for non-target content. We propose DyME, an on-demand
erasure framework that trains lightweight, concept-specific LoRA adapters and
dynamically composes only those needed at inference. This modular design
enables flexible multi-concept erasure, but naive composition causes
interference among adapters, especially when many or semantically related
concepts are suppressed. To overcome this, we introduce bi-level orthogonality
constraints at both the feature and parameter levels, disentangling
representation shifts and enforcing orthogonal adapter subspaces. We further
develop ErasureBench-H, a new hierarchical benchmark with
brand-series-character structure, enabling principled evaluation across
semantic granularities and erasure set sizes. Experiments on ErasureBench-H and
standard datasets (e.g., CIFAR-100, Imagenette) demonstrate that DyME
consistently outperforms state-of-the-art baselines, achieving higher
multi-concept erasure fidelity with minimal collateral degradation.
Ссылки и действия
Дополнительные ресурсы: