Demystifying Foreground-Background Memorization in Diffusion Models

2508.12148v1 cs.CV, cs.AI 2025-08-19
Авторы:

Jimmy Z. Di, Yiwei Lu, Yaoliang Yu, Gautam Kamath, Adam Dziedzic, Franziska Boenisch

Резюме на русском

#### Контекст Diffusion models (DMs) — модели глубокого обучения, которые генерируют изображения за счет постепенного замены шума на данные. Они показали свою эффективность в задачах, таких как генерация реалистичных изображений. Однако модели DMs также сохраняют возможность реплицировать элементы обучающих данных, что приводит к их воспроизведению во время генерации. Этот эффект, известный как "памятность", может привести к ненамеренной разглашению информации или к нежелательным последствиям, таким как переобучение. Данная проблема вызывает большой интерес, так как она отражает ограничения существующих моделей и их потенциальные опасности. Цель данного исследования — понять, каким образом DMs сохраняют информацию и как можно измерить эту "памятность" в различных режимах генерации. #### Метод Для изучения проблемы "памятности" в DMs была разработана новая метрика, названная Foreground-Background Memorization (FB-Mem). Эта метрика делит генерируемые изображения на фоновые и переднего плана (foreground), что позволяет определить, какие части изображений были получены из обучающих данных. FB-Mem использует сегментацию изображений для точного выделения областей, которые были запомнены моделью. Метод также позволяет классифицировать и измерить степень "памятности" в разных режимах, включая генерацию по заданному стимулу. Эта новая метрика значительно расширяет понимание "памятности" в DMs, позволяя выявить не только полное воспроизведение изображений, но и частичный клонирование регионов, включая локальные участки образов. #### Результаты Исследователи применили FB-Mem к нескольким моделям DMs и обнаружили, что "памятность" в действительности шире, чем предполагалось. Модели не только воспроизводят целые изображения, но и запоминают отдельные участки, такие как лица основных персонажей или детали фона. Даже при использовании различных методов модельного урезания, таких как удаление нейронов или преобразования слоев, "памятность" в локальных регионах остается в силе. Также наблюдалось, что некоторые изображения могут быть сгенерированы из нескольких похожих обучающих примеров, что указывает на сложные модели памяти, которые не ограничиваются одно-к-одному соответствием между обучением и генерацией. #### Значимость Результаты данного исследования имеют важное значение для области безопасности и приватности в области генерируемых моделей. Запечатанная информация, которая может быть воспроизведена моделями DMs, представляет собой огромный риск для конфиденциальности пользователей. Благодаря FB-Mem, модели могут быть более транспарентны,

Abstract

Diffusion models (DMs) memorize training images and can reproduce near-duplicates during generation. Current detection methods identify verbatim memorization but fail to capture two critical aspects: quantifying partial memorization occurring in small image regions, and memorization patterns beyond specific prompt-image pairs. To address these limitations, we propose Foreground Background Memorization (FB-Mem), a novel segmentation-based metric that classifies and quantifies memorized regions within generated images. Our method reveals that memorization is more pervasive than previously understood: (1) individual generations from single prompts may be linked to clusters of similar training images, revealing complex memorization patterns that extend beyond one-to-one correspondences; and (2) existing model-level mitigation methods, such as neuron deactivation and pruning, fail to eliminate local memorization, which persists particularly in foreground regions. Our work establishes an effective framework for measuring memorization in diffusion models, demonstrates the inadequacy of current mitigation approaches, and proposes a stronger mitigation method using a clustering approach.

Ссылки и действия