A Unified Framework for Diffusion Model Unlearning with f-Divergence

2509.21167v1 cs.LG, cs.CV 2025-09-27
Авторы:

Nicola Novello, Federico Fontana, Luigi Cinque, Deniz Gunduz, Andrea M. Tonello

Резюме на русском

## Контекст Машинное неучение (machine unlearning) — это процесс удаления конкретного знания из обученного модели. Диффузионные модели (DMs), получившие огромное признание благодаря своим выдающимся генерирующим потенциалом, часто используются в задачах текст-на-изображение (T2I). Однако, некоторые методы неучения для таких моделей опираются на минимизацию квадрата отклонения (MSE) между распределением выходов модели и концепциональным анкором. Мы доказываем, что этот подход является частным случаем более широкого фреймворка, основанного на $f$-дивергенциях, который может использовать любую $f$-дивергенцию. Мы изучаем преимущества различных $f$-дивергенций, которые влияют на свойства сходимости алгоритма и качество неучения. Предлагаемый фреймворк предлагает гибкий подход для выбора оптимальной $f$-дивергенции в зависимости от конкретной задачи, достигая баланса между агрессивным неучением и сохранением концепций. ## Метод Мы предлагаем $f$-дивергенция-ориентированный фреймворк для неучения в диффузионных моделях. Метод основывается на изменении дистрибуции генерируемых моделью изображений, чтобы свести к минимуму $f$-дивергенцию между распределением целевого изображения (target) и анкорного (anchor). Мы исследуем свойства различных $f$-дивергенций, таких как центральное лимутированное $f$-дивергенция (Cauchy), логарифмическая $f$-дивергенция (Log) и др. Для каждой из этих $f$-дивергенций мы определяем специфику обновления модели, чтобы добиться эффективного неучения, сохранив при этом качество генерации. Метод может быть адаптирован для различных $f$-дивергенций, что дает многообразие возможностей для решения конкретных задач неучения. ## Результаты Мы проводили эксперименты с использованием нескольких $f$-дивергенций в рамках предложенного фреймворка. Для сравнения выбраны различные тексто-в-изображение модели (T2I) с разным количеством параметров и архитектурами. Мы измеряли качество неучения по метрикам, таким как $f$-дивергенция между распределениями изображений до и после неучения, а также по изменению рандомизации модели. Результаты показали, что использование $f$-дивергенций, таких как Log и Cauchy, приводит к более эффективному неучению с меньшим потери качества генерации. Метод показал себя эффективнее в сравнении с MSE-ориентированным подходом, особенно при неучении с целевыми концепциями, требующими точного удаления. ## Значимость Предложенный фреймворк имеет широкое применение в сценариях, где необходимо удалять конкретные концепции из обученных диффузионных моделей, например, в ситуациях соблюдения конфи

Abstract

Machine unlearning aims to remove specific knowledge from a trained model. While diffusion models (DMs) have shown remarkable generative capabilities, existing unlearning methods for text-to-image (T2I) models often rely on minimizing the mean squared error (MSE) between the output distribution of a target and an anchor concept. We show that this MSE-based approach is a special case of a unified $f$-divergence-based framework, in which any $f$-divergence can be utilized. We analyze the benefits of using different $f$-divergences, that mainly impact the convergence properties of the algorithm and the quality of unlearning. The proposed unified framework offers a flexible paradigm that allows to select the optimal divergence for a specific application, balancing different trade-offs between aggressive unlearning and concept preservation.

Ссылки и действия