Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

2508.14896v1 cs.CL, cs.AI 2025-08-22
Авторы:

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Резюме на русском

#### Контекст Диффузионные большие языковые модели (dLLMs) представляют собой альтернативную подход к авторегрессионным (AR) языковым моделям для задач естественного языкового понимания и генерации. Они используют полное внимание и стратегии декодирования на основе дискретного диффузионного сглаживания, что делает их эффективными для многих задач. Однако, деплоймент dLLMs на ресурсораспределенных устройствах, таких как мобильные и IoT-устройства, остается сложной задачей из-за их высокого потребления ресурсов и массивного объема параметров. Хотя методы постобучения (post-training) компрессии, такие как постобучевая трансляция в низкобитную сетку (post-training quantization, PTQ), показали свою эффективность для сжатия AR LLMs, их применимость к dLLMs еще не тщательно исследована. Это ставит задачу разработки методов сжатия dLLMs для эффективного деплоймента. #### Метод Мы предлагаем тщательное исследование постобучевая трансляция в низкобитную сетку для dLLMs. Методология включает в себя: 1) идентификацию и анализ активационных выбросов (activation outliers), которые являются резкими значениями, занимающими большую часть динамического диапазона; 2) разработка и реализация современных методов PTQ для dLLMs; 3) построение экспериментов на различных типах задач и моделях dLLM, включая различные бит-width и настройки; 4) анализ производительности моделей по фундаментальным критериям качества и сжатия. Наша методика позволяет изучить различные аспекты сжатия dLLMs и установить рекомендации для эффективного использования PTQ в таких моделях. #### Результаты Мы провели эксперименты на нескольких различных размерах моделей dLLM, включая наиболее популярные архитектуры, используя различные бит-width и методы PTQ. Наши результаты показали, что dLLMs очень чувствительны к выбору бит-width и метода компрессии. Мы обнаружили, что низкобитные модели (например, 4-bit или 8-bit) могут вызывать существенную потерю точности, особенно для высоконагруженных моделей. Однако современные методы quantization-aware training (QAT) и zero-shot PTQ показали некоторый потенциал для улучшения качества после сжатия. Мы также проанализировали влияние разных задач (например, синтеза речи, трансформации текста) на поведение dLLMs после сжатия. #### Значимость Предлагаемый подход добавляет значительные возможности для эффективного деплоймента dLLMs на ресурсораспределенных устройствах. Мы продвигаем знания в области сжатия dLLMs, которые могут быть использованы для создания моделей с более низким потреблением ресурсов, без значительной потери качества. Это открывает пути для использования d

Abstract

Recent advances in diffusion large language models (dLLMs) have introduced a promising alternative to autoregressive (AR) LLMs for natural language generation tasks, leveraging full attention and denoising-based decoding strategies. However, the deployment of these models on edge devices remains challenging due to their massive parameter scale and high resource demands. While post-training quantization (PTQ) has emerged as a widely adopted technique for compressing AR LLMs, its applicability to dLLMs remains largely unexplored. In this work, we present the first systematic study on quantizing diffusion-based language models. We begin by identifying the presence of activation outliers, characterized by abnormally large activation values that dominate the dynamic range. These outliers pose a key challenge to low-bit quantization, as they make it difficult to preserve precision for the majority of values. More importantly, we implement state-of-the-art PTQ methods and conduct a comprehensive evaluation across multiple task types and model variants. Our analysis is structured along four key dimensions: bit-width, quantization method, task category, and model type. Through this multi-perspective evaluation, we offer practical insights into the quantization behavior of dLLMs under different configurations. We hope our findings provide a foundation for future research in efficient dLLM deployment. All codes and experimental setups will be released to support the community.

Ссылки и действия