Squeezed Diffusion Models
2508.14871v1
cs.LG, cs.CV
2025-08-22
Авторы:
Jyotirmai Singh, Samar Khanna, James Burgess
Резюме на русском
## Контекст
Современные диффузионные модели генерируют изображения с помощью последовательной процедуры добавления шума и обратного декодирования. Однако эти модели обычно применяют изотропный гауссовский шум, не учитывая природу данных. Это может привести к потере информации и неэффективности. Например, в квантовой механике сжатые квантовые состояния (squeezed states) распределяют неопределенность вдоль определенных направлений, что увеличивает чувствительность системы к определенным величинам. Мотивированы этими принципами, авторы предложили **Squeezed Diffusion Models (SDM)**, которые структурируют шум в зависимости от природы обучающих данных, с целью повысить качество генерируемых изображений.
## Метод
SDM используют ансамбль из двух модификаций диффузионных моделей. **Heisenberg diffusion model** (HDM) масштабирует шум вдоль основного направления (при помощи коэффициента сжатия $\lambda$) и применяет пропорциональный откат на пространстве ортогональном этому направлению. Другая модификация, **Standard SDM**, применяет только коэффициент сжатия $\lambda$ вдоль основного направления, не применяя откат на пространстве ортогональном. Эти модели могут использоваться в генерировании изображений, добавляя сжатый шум в каждой эпохе тренировки. Эксперименты проводились на CIFAR-10/100 и CelebA-64, сравнивая результаты с использованием метрик FID (Frechet Inception Distance) и precision-recall frontier.
## Результаты
Результаты экспериментов показали, что **SDM** может повысить FID на CIFAR-10/100 и CelebA-64, сравнению с базовыми диффузионными моделями. На CIFAR-10, например, FID снизился с 3,9 до 3,4 при использовании HDM. Также выяснилось, что **antisqueezing** (увеличение дисперсии вдоль основного направления) может положительно сказаться на качестве генерируемых изображений, повысив recall без снижения precision. Полученные результаты показывают, что данные-ориентированный шум может значительно улучшить качество моделей, не требуя изменений архитектуры.
## Значимость
SDM могут быть применены в различных областях, где требуется высококачественное генерирование данных, таких как:
- **Визуальная генерация** (например, изображения, текста, звука).
- **Медицинские изображения** (генерирование изображений с помощью медицинских данных).
- **Геометрические данные** (генерирование трёхмерных моделей или сетках поверхности).
- **Квантовые вычисления** (моделирование сжатых квантовых состояний).
SDM предоставляют значительные преимущества в отношении качества генерируемых изображений, гибкости и простоте, что может повлиять на развитие глубокого обучения и квантовых технологий.
## Выводы
В этой работе бы
Abstract
Diffusion models typically inject isotropic Gaussian noise, disregarding
structure in the data. Motivated by the way quantum squeezed states
redistribute uncertainty according to the Heisenberg uncertainty principle, we
introduce Squeezed Diffusion Models (SDM), which scale noise anisotropically
along the principal component of the training distribution. As squeezing
enhances the signal-to-noise ratio in physics, we hypothesize that scaling
noise in a data-dependent manner can better assist diffusion models in learning
important data features. We study two configurations: (i) a Heisenberg
diffusion model that compensates the scaling on the principal axis with inverse
scaling on orthogonal directions and (ii) a standard SDM variant that scales
only the principal axis. Counterintuitively, on CIFAR-10/100 and CelebA-64,
mild antisqueezing - i.e. increasing variance on the principal axis -
consistently improves FID by up to 15% and shifts the precision-recall frontier
toward higher recall. Our results demonstrate that simple, data-aware noise
shaping can deliver robust generative gains without architectural changes.
Ссылки и действия
Дополнительные ресурсы: