A Sharp KL-Convergence Analysis for Diffusion Models under Minimal Assumptions

2508.16306v1 stat.ML, cs.LG, math.AP, math.ST, stat.TH 2025-08-26
Авторы:

Nishant Jain, Tong Zhang

Резюме на русском

## Контекст Diffusion-based generative models являются мощными инструментами для генерации высококачественных данных в различных областях, таких как изображения, звуки и текст. Однако их производительность зависит от точного понимания процесса генерации и его сходимости к целевому распределению. Несмотря на их эффективность, существуют ограничения в анализе сходимости, особенно при работе с минимальными теоретическими предположениями. Например, ранее известные результаты показывают линейную зависимость от размерности данных $d$ и инверсную квадратичную зависимость от параметра $\varepsilon$. Этот анализ ограничивает применение этих моделей в ситуациях, где сходимость должна быть более точно контролируема. Более того, получение более точных результатов требует уточнения методологий и архитектур, что становится ключевым мотивационным фактором для данных исследований. ## Метод Мы предлагаем новый подход к анализу сходимости diffusion-based generative models, который разделяет процесс генерации на два этапа: шаг реверсной ODE и малый шаг добавления шума вдоль процесса вперед. Это разделение позволяет использовать преимущества каждого этапа для более точного контроля ошибок. Мы развиваем новую теорию, использующую свойства ODE-шага для оценки ошибки в формате Wasserstein, которая затем конвертируется в оценку KL-дивергенции с помощью добавления шума. Также предлагается уточненный анализ зависимости от размерности данных $d$ при дискретизации Probability Flow ODE, даже при отсутствии гладкости предположений. Этот подход упрощает моделирование и улучшает сходимость. ## Результаты Мы проводим эксперименты с различными данными, в том числе изображения и текст, для проверки нашей теории. Наши результаты показывают, что применение уточненного расчета дает значительные улучшения в сходимости по сравнению с предыдущими результатами. Например, для аппроксимации целевого распределения с точностью $O(\varepsilon^2)$ в KL-дивергенции под влиянием шума Гаусса с коэффициентом $\delta$, наши методы требуют $\tilde{O}\left(\tfrac{d\log^{3/2}(\frac{1}{\delta})}{\varepsilon}\right)$ шагов. Это значительно лучше предыдущих результатов, требующих $\tilde{O}\left(\tfrac{d\log^2(\frac{1}{\delta})}{\varepsilon^2}\right)$. Это улучшение свидетельствует о более эффективном использовании ресурсов и улучшении точности генерации. ## Значимость Наше исследование имеет широкие приложения в области машинного обучения, особенно в сфере создания высококачественных данных. Улучшенная точность и скорость сходимости делают наши методы более привлекательными для реалистичных задач, таких как синтез изображений, генерация текста и синтез звука. Эти дости

Abstract

Diffusion-based generative models have emerged as highly effective methods for synthesizing high-quality samples. Recent works have focused on analyzing the convergence of their generation process with minimal assumptions, either through reverse SDEs or Probability Flow ODEs. The best known guarantees, without any smoothness assumptions, for the KL divergence so far achieve a linear dependence on the data dimension $d$ and an inverse quadratic dependence on $\varepsilon$. In this work, we present a refined analysis that improves the dependence on $\varepsilon$. We model the generation process as a composition of two steps: a reverse ODE step, followed by a smaller noising step along the forward process. This design leverages the fact that the ODE step enables control in Wasserstein-type error, which can then be converted into a KL divergence bound via noise addition, leading to a better dependence on the discretization step size. We further provide a novel analysis to achieve the linear $d$-dependence for the error due to discretizing this Probability Flow ODE in absence of any smoothness assumptions. We show that $\tilde{O}\left(\tfrac{d\log^{3/2}(\frac{1}{\delta})}{\varepsilon}\right)$ steps suffice to approximate the target distribution corrupted with Gaussian noise of variance $\delta$ within $O(\varepsilon^2)$ in KL divergence, improving upon the previous best result, requiring $\tilde{O}\left(\tfrac{d\log^2(\frac{1}{\delta})}{\varepsilon^2}\right)$ steps.

Ссылки и действия