On the Edge of Memorization in Diffusion Models

2508.17689v1 cs.LG, stat.ML 2025-08-27
Авторы:

Sam Buchanan, Druv Pai, Yi Ma, Valentin De Bortoli

Резюме на русском

#### Контекст Диффузионные модели являются мощным инструментом в машинном обучении, применяемыми в сферах, таких как генерация изображений, звука и текста. Однако существуют некоторые проблемы, связанные с их работой. Например, эти модели могут не только генерировать новые данные, но и воспроизводить исходные данные, включая те, которые были использованы в ходе обучения. Это может привести к проблемам, таким как копирайтерские споры и нарушение конфиденциальности данных. Тем не менее, мало знакомо с точки зрения теории и практики, что определяет модели работы — то значительное внимание уделяется их возможности генерировать новые данные, но мало изучено, при каких условиях они могут воспроизводить имеющиеся. Этот вопрос не только теоретически интересен, но и имеет практическое значение для реального применения таких моделей в различных областях. #### Метод Мы предлагаем математическую модель, которая позволяет разделять факторы, влияющие на воспроизведение данных в диффузионных моделях. Особенностью нашего подхода является использование синтетических или натуральных изображений, которые служат исходным материалом для обучения моделей. Мы строим "математическую лабораторию", в которой проводятся эксперименты с разными моделями, обученными на разных наборах данных. Наша гипотеза заключается в том, что модель воспроизведет данные или же генерирует новые в зависимости от размера модели и характера обучения. Мы проверяем эту гипотезу, исследуя различия в поведении моделей при меняющемся размере параметров. #### Результаты Мы проводили эксперименты, в ходе которых использовали синтетические и натуральные данные для обучения моделей. Мы выявили, что при достаточно маленьких размерах моделей они полагаются на воспроизведение данных, чтобы минимизировать ошибку. Однако, когда размер модели достигает определенного критического уровня, они начинают генерировать новые данные. Мы также показали, что наша теория может предсказывать момент, когда модель переходит с воспроизведения к генерации, исходя из размера модели и её параметров. #### Значимость Наши результаты могут иметь большое значение в различных областях, где используются диффузионные модели. Например, в области генерации изображений, звука или текста, где важно понимать, могут ли модели воспроизвести исходные данные или же генерируют новые. Благодаря нашей теории можно предсказать, на каком этапе модель будет переходить от воспроизведения к генерации, что помогает в управлении проблемами копирайтерских споров или защиты конфиденциальности данных. #### Выво

Abstract

When do diffusion models reproduce their training data, and when are they able to generate samples beyond it? A practically relevant theoretical understanding of this interplay between memorization and generalization may significantly impact real-world deployments of diffusion models with respect to issues such as copyright infringement and data privacy. In this work, to disentangle the different factors that influence memorization and generalization in practical diffusion models, we introduce a scientific and mathematical "laboratory" for investigating these phenomena in diffusion models trained on fully synthetic or natural image-like structured data. Within this setting, we hypothesize that the memorization or generalization behavior of an underparameterized trained model is determined by the difference in training loss between an associated memorizing model and a generalizing model. To probe this hypothesis, we theoretically characterize a crossover point wherein the weighted training loss of a fully generalizing model becomes greater than that of an underparameterized memorizing model at a critical value of model (under)parameterization. We then demonstrate via carefully-designed experiments that the location of this crossover predicts a phase transition in diffusion models trained via gradient descent, validating our hypothesis. Ultimately, our theory enables us to analytically predict the model size at which memorization becomes predominant. Our work provides an analytically tractable and practically meaningful setting for future theoretical and empirical investigations. Code for our experiments is available at https://github.com/DruvPai/diffusion_mem_gen.

Ссылки и действия