Squeezed Diffusion Models

2508.14871v1 cs.LG, cs.CV 2025-08-22

Авторы:

Jyotirmai Singh, Samar Khanna, James Burgess

Резюме на русском

## Контекст Современные диффузионные модели генерируют изображения с помощью последовательной процедуры добавления шума и обратного декодирования. Однако эти модели обычно применяют изотропный гауссовский шум, не учитывая природу данных. Это может привести к потере информации и неэффективности. Например, в квантовой механике сжатые квантовые состояния (squeezed states) распределяют неопределенность вдоль определенных направлений, что увеличивает чувствительность системы к определенным величинам. Мотивированы этими принципами, авторы предложили **Squeezed Diffusion Models (SDM)**, которые структурируют шум в зависимости от природы обучающих данных, с целью повысить качество генерируемых изображений. ## Метод SDM используют ансамбль из двух модификаций диффузионных моделей. **Heisenberg diffusion model** (HDM) масштабирует шум вдоль основного направления (при помощи коэффициента сжатия $\lambda$) и применяет пропорциональный откат на пространстве ортогональном этому направлению. Другая модификация, **Standard SDM**, применяет только коэффициент сжатия $\lambda$ вдоль основного направления, не применяя откат на пространстве ортогональном. Эти модели могут использоваться в генерировании изображений, добавляя сжатый шум в каждой эпохе тренировки. Эксперименты проводились на CIFAR-10/100 и CelebA-64, сравнивая результаты с использованием метрик FID (Frechet Inception Distance) и precision-recall frontier. ## Результаты Результаты экспериментов показали, что **SDM** может повысить FID на CIFAR-10/100 и CelebA-64, сравнению с базовыми диффузионными моделями. На CIFAR-10, например, FID снизился с 3,9 до 3,4 при использовании HDM. Также выяснилось, что **antisqueezing** (увеличение дисперсии вдоль основного направления) может положительно сказаться на качестве генерируемых изображений, повысив recall без снижения precision. Полученные результаты показывают, что данные-ориентированный шум может значительно улучшить качество моделей, не требуя изменений архитектуры. ## Значимость SDM могут быть применены в различных областях, где требуется высококачественное генерирование данных, таких как: - **Визуальная генерация** (например, изображения, текста, звука). - **Медицинские изображения** (генерирование изображений с помощью медицинских данных). - **Геометрические данные** (генерирование трёхмерных моделей или сетках поверхности). - **Квантовые вычисления** (моделирование сжатых квантовых состояний). SDM предоставляют значительные преимущества в отношении качества генерируемых изображений, гибкости и простоте, что может повлиять на развитие глубокого обучения и квантовых технологий. ## Выводы В этой работе бы

Abstract

Diffusion models typically inject isotropic Gaussian noise, disregarding structure in the data. Motivated by the way quantum squeezed states redistribute uncertainty according to the Heisenberg uncertainty principle, we introduce Squeezed Diffusion Models (SDM), which scale noise anisotropically along the principal component of the training distribution. As squeezing enhances the signal-to-noise ratio in physics, we hypothesize that scaling noise in a data-dependent manner can better assist diffusion models in learning important data features. We study two configurations: (i) a Heisenberg diffusion model that compensates the scaling on the principal axis with inverse scaling on orthogonal directions and (ii) a standard SDM variant that scales only the principal axis. Counterintuitively, on CIFAR-10/100 and CelebA-64, mild antisqueezing - i.e. increasing variance on the principal axis - consistently improves FID by up to 15% and shifts the precision-recall frontier toward higher recall. Our results demonstrate that simple, data-aware noise shaping can deliver robust generative gains without architectural changes.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Squeezed Diffusion Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Studying Various Activation Functions and Non-IID Data for Machine Learning Mode...

Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative ...

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspecti...

Value Gradient Guidance for Flow Matching Alignment

Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe

Навигация