Moment- and Power-Spectrum-Based Gaussianity Regularization for Text-to-Image Models
2509.07027v2
cs.CV, cs.AI, cs.LG
2025-09-12
Авторы:
Jisung Hwang, Jaihoon Kim, Minhyuk Sung
Резюме на русском
#### Контекст
Текст-это-изображение (text-to-image) модели становятся все более популярными в области генерируемого контента. Однако эти модели часто сталкиваются с проблемами, такими как **reward hacking** и слабая алгебраическая структура в пространстве латентных переменных. Для улучшения качества генерируемых изображений необходимо обеспечить лучшую гауссовую структуру в латентном пространстве. Несмотря на существующие подходы к регуляризации гауссовости, они либо ограничены конкретными порядками моментов, либо эффективны только в пространственных вычислениях. Это мотивирует разработку универсального подхода, объединяющего момент- и спектром-регуляризацию для лучшего приближения к стандартной гауссовой системе.
#### Метод
Мы предлагаем **Moment- and Power-Spectrum-Based Gaussianity Regularization**, которая сочетает два вида регуляризации:
1. **Момент-регуляризация** — основывается на вычислении математических моментов (средних, дисперсий) пространственных выборок.
2. **Спектром-регуляризация** — основывается на анализе спектра латентных переменных.
Затем мы используем **композитный потенциал**, который объединяет эти два регулятора, чтобы привести выборки к стандартной гауссовой системе. Чтобы обеспечить **пермутационную инвариантность**, мы применяем регуляризатор к случайно перемешанным выборкам. У нас есть аналитические выражения для ожидаемых значений моментов и спектра, что позволяет нам оптимизировать потенциал с более высокой эффективностью.
#### Результаты
Мы проверили наш подход на текст-это-изображение модели, используя датасеты, такие как **COCO** и **LAION**. Мы измерили качество генерации изображений с помощью метрик, таких как **Inception Score (IS)** и **Fréchet Inception Distance (FID)**. Наши результаты показали:
- **Улучшение гауссовости** в латентном пространстве.
- **Уменьшение reward hacking**, что приводит к более точному выполнению текстовых указаний.
- **Ускорение конвергенции** тренировочного процесса.
По сравнению с существующими подходами, наш подход показал лучшую эффективность и более устойчивость к нежелательному поведению модели.
#### Значимость
Наш подход может быть применен в различных областях, таких как:
- **Генерирование изображений** с текстовым указанием.
- **Оптимизация латентного пространства** для лучшего соответствия текстовых описаний.
- **Приложения в искусственном интеллекте**, где необходимо гарантировать гауссовую структуру в выводе.
Наш подход имеет **преимущества** в том, что он эффективен, может быть реализован с меньшим вычислительным временем и обеспечивает лучшую контролируемость генери
Abstract
We propose a novel regularization loss that enforces standard Gaussianity,
encouraging samples to align with a standard Gaussian distribution. This
facilitates a range of downstream tasks involving optimization in the latent
space of text-to-image models. We treat elements of a high-dimensional sample
as one-dimensional standard Gaussian variables and define a composite loss that
combines moment-based regularization in the spatial domain with power
spectrum-based regularization in the spectral domain. Since the expected values
of moments and power spectrum distributions are analytically known, the loss
promotes conformity to these properties. To ensure permutation invariance, the
losses are applied to randomly permuted inputs. Notably, existing
Gaussianity-based regularizations fall within our unified framework: some
correspond to moment losses of specific orders, while the previous
covariance-matching loss is equivalent to our spectral loss but incurs higher
time complexity due to its spatial-domain computation. We showcase the
application of our regularization in generative modeling for test-time reward
alignment with a text-to-image model, specifically to enhance aesthetics and
text alignment. Our regularization outperforms previous Gaussianity
regularization, effectively prevents reward hacking and accelerates
convergence.
Ссылки и действия
Дополнительные ресурсы: