📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Nishant Jain, Tong Zhang

## Контекст Diffusion-based generative models являются мощными инструментами для генерации высококачественных данных в различных областях, таких как изображения, звуки и текст. Однако их производительность зависит от точного понимания процесса генерации и его сходимости к целевому распределению. Несмотря на их эффективность, существуют ограничения в анализе сходимости, особенно при работе с минимальными теоретическими предположениями. Например, ранее известные результаты показывают линейную зависимость от размерности данных $d$ и инверсную квадратичную зависимость от параметра $\varepsilon$. Этот анализ ограничивает применение этих моделей в ситуациях, где сходимость должна быть более точно контролируема. Более того, получение более точных результатов требует уточнения методологий и архитектур, что становится ключевым мотивационным фактором для данных исследований. ## Метод Мы предлагаем новый подход к анализу сходимости diffusion-based generative models, который разделяет процесс генерации на два этапа: шаг реверсной ODE и малый шаг добавления шума вдоль процесса вперед. Это разделение позволяет использовать преимущества каждого этапа для более точного контроля ошибок. Мы развиваем новую теорию, использующую свойства ODE-шага для оценки ошибки в формате Wasserstein, которая затем конвертируется в оценку KL-дивергенции с помощью добавления шума. Также предлагается уточненный анализ зависимости от размерности данных $d$ при дискретизации Probability Flow ODE, даже при отсутствии гладкости предположений. Этот подход упрощает моделирование и улучшает сходимость. ## Результаты Мы проводим эксперименты с различными данными, в том числе изображения и текст, для проверки нашей теории. Наши результаты показывают, что применение уточненного расчета дает значительные улучшения в сходимости по сравнению с предыдущими результатами. Например, для аппроксимации целевого распределения с точностью $O(\varepsilon^2)$ в KL-дивергенции под влиянием шума Гаусса с коэффициентом $\delta$, наши методы требуют $\tilde{O}\left(\tfrac{d\log^{3/2}(\frac{1}{\delta})}{\varepsilon}\right)$ шагов. Это значительно лучше предыдущих результатов, требующих $\tilde{O}\left(\tfrac{d\log^2(\frac{1}{\delta})}{\varepsilon^2}\right)$. Это улучшение свидетельствует о более эффективном использовании ресурсов и улучшении точности генерации. ## Значимость Наше исследование имеет широкие приложения в области машинного обучения, особенно в сфере создания высококачественных данных. Улучшенная точность и скорость сходимости делают наши методы более привлекательными для реалистичных задач, таких как синтез изображений, генерация текста и синтез звука. Эти дости
Annotation:
Diffusion-based generative models have emerged as highly effective methods for synthesizing high-quality samples. Recent works have focused on analyzing the convergence of their generation process with minimal assumptions, either through reverse SDEs or Probability Flow ODEs. The best known guarantees, without any smoothness assumptions, for the KL divergence so far achieve a linear dependence on the data dimension $d$ and an inverse quadratic dependence on $\varepsilon$. In this work, we presen...
ID: 2508.16306v1 stat.ML, cs.LG, math.AP, math.ST, stat.TH