Moment- and Power-Spectrum-Based Gaussianity Regularization for Text-to-Image Models

2509.07027v2 cs.CV, cs.AI, cs.LG 2025-09-12

Авторы:

Jisung Hwang, Jaihoon Kim, Minhyuk Sung

Резюме на русском

#### Контекст Текст-это-изображение (text-to-image) модели становятся все более популярными в области генерируемого контента. Однако эти модели часто сталкиваются с проблемами, такими как **reward hacking** и слабая алгебраическая структура в пространстве латентных переменных. Для улучшения качества генерируемых изображений необходимо обеспечить лучшую гауссовую структуру в латентном пространстве. Несмотря на существующие подходы к регуляризации гауссовости, они либо ограничены конкретными порядками моментов, либо эффективны только в пространственных вычислениях. Это мотивирует разработку универсального подхода, объединяющего момент- и спектром-регуляризацию для лучшего приближения к стандартной гауссовой системе. #### Метод Мы предлагаем **Moment- and Power-Spectrum-Based Gaussianity Regularization**, которая сочетает два вида регуляризации: 1. **Момент-регуляризация** — основывается на вычислении математических моментов (средних, дисперсий) пространственных выборок. 2. **Спектром-регуляризация** — основывается на анализе спектра латентных переменных. Затем мы используем **композитный потенциал**, который объединяет эти два регулятора, чтобы привести выборки к стандартной гауссовой системе. Чтобы обеспечить **пермутационную инвариантность**, мы применяем регуляризатор к случайно перемешанным выборкам. У нас есть аналитические выражения для ожидаемых значений моментов и спектра, что позволяет нам оптимизировать потенциал с более высокой эффективностью. #### Результаты Мы проверили наш подход на текст-это-изображение модели, используя датасеты, такие как **COCO** и **LAION**. Мы измерили качество генерации изображений с помощью метрик, таких как **Inception Score (IS)** и **Fréchet Inception Distance (FID)**. Наши результаты показали: - **Улучшение гауссовости** в латентном пространстве. - **Уменьшение reward hacking**, что приводит к более точному выполнению текстовых указаний. - **Ускорение конвергенции** тренировочного процесса. По сравнению с существующими подходами, наш подход показал лучшую эффективность и более устойчивость к нежелательному поведению модели. #### Значимость Наш подход может быть применен в различных областях, таких как: - **Генерирование изображений** с текстовым указанием. - **Оптимизация латентного пространства** для лучшего соответствия текстовых описаний. - **Приложения в искусственном интеллекте**, где необходимо гарантировать гауссовую структуру в выводе. Наш подход имеет **преимущества** в том, что он эффективен, может быть реализован с меньшим вычислительным временем и обеспечивает лучшую контролируемость генери

Abstract

We propose a novel regularization loss that enforces standard Gaussianity, encouraging samples to align with a standard Gaussian distribution. This facilitates a range of downstream tasks involving optimization in the latent space of text-to-image models. We treat elements of a high-dimensional sample as one-dimensional standard Gaussian variables and define a composite loss that combines moment-based regularization in the spatial domain with power spectrum-based regularization in the spectral domain. Since the expected values of moments and power spectrum distributions are analytically known, the loss promotes conformity to these properties. To ensure permutation invariance, the losses are applied to randomly permuted inputs. Notably, existing Gaussianity-based regularizations fall within our unified framework: some correspond to moment losses of specific orders, while the previous covariance-matching loss is equivalent to our spectral loss but incurs higher time complexity due to its spatial-domain computation. We showcase the application of our regularization in generative modeling for test-time reward alignment with a text-to-image model, specifically to enhance aesthetics and text alignment. Our regularization outperforms previous Gaussianity regularization, effectively prevents reward hacking and accelerates convergence.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Moment- and Power-Spectrum-Based Gaussianity Regularization for Text-to-Image Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация