LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation

2508.03485v1 cs.CV 2025-08-09

Авторы:

Lianwei Yang, Haokun Lin, Tianchen Zhao, Yichen Wu, Hongyu Zhu, Ruiqi Xie, Zhenan Sun, Yu Wang, Qingyi Gu

Резюме на русском

Логические трансформаторы (DiT) показали себя как мощный инструмент для текстово-изобразительных задач, но их высокая стоимость вычислений и большой размер моделей ограничивают их применение в ресурсоразрушительных ситуациях. Для уменьшения памяти и ускорения инференса применяется пост-тренировочная квантования (PTQ), однако существующие методы либо сильно ухудшают качество после квантования, особенно при низких бит-ширинах. Основные проблемы: (1) тяжеловесное распределение весов DiT, которое не учитывают существующие методы; (2) выходные данные сети, разбитые на два типа выбросов, разрушают корректность квантования. Мы предлагаем LRQ-DiT — эффективный PTQ-фреймворк, который решает эти проблемы. Мы предлагаем Twin-Log Quantization (TLQ), которая хорошо подстраивается под распределение весов, и Adaptive Rotation Scheme (ARS), которая адаптивно компенсирует выбросы в активациях. Мы проверили LRQ-DiT на PixArt и FLUX, а также COCO, MJHQ и sDCI на разных бит-ширинах. LRQ-DiT позволяет достичь высокого качества генерации изображений при эффективном квантовании.

Abstract

Diffusion Transformers (DiTs) have achieved impressive performance in text-to-image generation. However, their high computational cost and large parameter sizes pose significant challenges for usage in resource-constrained scenarios. Post-training quantization (PTQ) is a promising solution to reduce memory usage and accelerate inference, but existing PTQ methods suffer from severe performance degradation under extreme low-bit settings. We identify two key obstacles to low-bit post-training quantization for DiT models: (1) model weights follow a Gaussian-like distribution with long tails, causing uniform quantization to poorly allocate intervals and leading to significant errors; (2) two types of activation outliers: (i) Mild Outliers with slightly elevated values, and (ii) Salient Outliers with large magnitudes concentrated in specific channels, which disrupt activation quantization. To address these issues, we propose LRQ-DiT, an efficient and accurate PTQ framework. We introduce Twin-Log Quantization (TLQ), a log-based method that aligns well with the weight distribution and reduces quantization errors. We also propose an Adaptive Rotation Scheme (ARS) that dynamically applies Hadamard or outlier-aware rotations based on activation fluctuation, effectively mitigating the impact of both types of outliers. We evaluate LRQ-DiT on PixArt and FLUX under various bit-width settings, and validate the performance on COCO, MJHQ, and sDCI datasets. LRQ-DiT achieves low-bit quantization of DiT models while preserving image quality, outperforming existing PTQ baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reason...

VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation

VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Seq...

HuPrior3R: Incorporating Human Priors for Better 3D Dynamic Reconstruction from ...

RAVE: Rate-Adaptive Visual Encoding for 3D Gaussian Splatting

Навигация